- 博客(10)
- 收藏
- 关注
原创 MapReduce
SQL --> Hive" easily writing applications" 轻松编写应用程序对于如何容错,如何进行RPC通信等,开发人员不用关注,关注我们的业务逻辑就可以,从这方面来讲,easily业务逻辑 + MR框架自带的内置的组件 => 分布式应用程序开发用MR来做开发,相较于 Spark ,很麻烦Map: 映射 把一个任务拆解成多个Reduce:聚合,把拆解开的任务做最后的聚合操作比如一开始的wordcount.txt文件hadoop h
2022-03-26 15:46:15
2473
原创 Yarn和调度
Yarn的作用:资源调度分配启动Yarn后多了 ResourceManager 和 NodeManager 两个进程Yarn的主要模块:1.ResourceManager(RM)Yarn的资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。调度器应用管理器2.调度器(ResourceScheduler)根据各个应用程序的资源需求,进行分配3.应用管理器(Applications Manager)负责监控或跟踪AM的执行状态4.NodeMa
2022-03-26 15:23:33
896
原创 连续登录天数
表结构如图1.每个ID最大的连续登录天数先找到连续的可以和日期参照的数字select id, login_date, row_number() over(partition by id order by login_date) as rn from login使用该连续的数字与日期做差select id, login_date, row_number() over(partition by id order by
2022-03-23 19:30:11
445
原创 ROWS Between
ROWS Between表结构:spu_id pt click_pv商品ID 日期 点击量1.对应5天后的click_pv 比如1号要6号的select t.*, nvl(lead(click_pv, 4) over(partition by spu_id order by pt), 0) as lead5_pv from click t2.后5天的click_pv之和select t.*, sum(click_pv) ove
2022-03-23 11:55:45
125
原创 HDFS读写流程
HDFS读流程:HDFS Client调用FileSystem.open(filePath)与NN进行【RPC】通信,返回该文件的block列表FSDataInputStream
2022-03-23 10:59:27
149
原创 HDFS主从架构
NameNode SecondaryNameNode DataNode一、NameNode(简写为NN,名称节点)主要功能,存储的内容包括:1.文件的名称2.文件的目录结构3.文件的属性(权限,副本数,创建时间等)也就是可以用hdfs -dfs ls看的信息*4.一个文件被对应切割哪些数据块(包括副本数的块) ==> 对应分布在哪些DataNode管理文件系统的命名空间,维护文件系统树的文件和文件夹主要文件:镜像文件:fsimage编辑日志文件:edits
2022-03-20 19:01:13
393
原创 HDFS笔记
查看常用命令:hdfs --help可以查看能用哪些 HDFS 命令,以下为可能会用到的一些命令dfsadmin run a DFS admin clientfsck run a DFS filesystem checking utilitydfs run a filesystem command on the file systemnamenode run the DFS
2022-03-20 16:48:17
2092
原创 运行一个MapReduce的JOB
1.在/data目录下创建一个文件vim wordcount.txt放入一些词2.返回hadoop文件夹,在hdfs上创建一个文件夹bin/hdfs dfs -mkdir -p /wordcount/input3.将/data目录下刚创建的文件放到hdfs的这个文件夹下bin/hdfs dfs -put /home/<username>/data/wordcount.txt /wordcount/input执行命令bin/hadoop jar sh
2022-03-19 13:39:55
1007
原创 修改Hadoop的PID存储路径
先停止所有Hadopp服务,进入etc/hadoop/修改hadoop-env.sh文件vi hadoop-env.sh在JAVA HOME后添加export HADOOP_PID_DIR=/home/<username>/tmpexport HADOOP_SECURE_PID_DIR=/home/<username>/tmp再启动服务。
2022-03-19 13:11:01
1637
原创 YARN的配置
1.修改 etc/hadoop/mapred-site.xml文件先备份该文件cp mapred-site.xml mapred-site-bk.xml修改文件vi mapred-site.xml在 <configuration> 之间插入 <property> <name>mapreduce.framework.name</name> <value>yarn</valu..
2022-03-19 12:03:51
3966
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人