Hadoop
文章平均质量分 60
实践、学习记录
清蒸小土豆
得不到就痛苦,得到了就无聊
展开
-
MR在yarn上的运行流程
1 向ResourceManager提交任务2 主节点返回jobID 和目录3 初始化 (1)创建临时目录 (2) 上传jar包 (3) 初始化配置信息 (4) 计算任务切片4 开始运行job5 ResourceManager 调用Scheduler组件创建默认容器 创建MRappm组件AppMaster负责控制所有的任务Scheduler 负责调度资源nodemanager会根据自己资源生成容器(内存.原创 2021-03-05 20:19:10 · 240 阅读 · 0 评论 -
MR原理简单总结
MR 原理简单总结1读取job 读取输入路径、遍历文件,根据文件数量和大小切片2获得数据TextInputFormat 获得每个切片的数据 调用LineRecoderReader方法,读取一行内容,key为行起始信息,value为行内容,nextKeyValue判断后面还有没有数据了。3Maptask核心逻辑4HashPartitioner分区器计算key哈希值模以reduce的个数5 MapOutBuffer 从内存溢出到磁盘中有一个环形数组作为缓冲区,将接受到的数据,排序放入缓原创 2021-02-28 22:19:48 · 609 阅读 · 0 评论 -
Hadoop上传读取元数据管理原理 MapReduce运行模式
Hadoop 原理增强1hdfs上传原理本地请求上传a.txt 文件(1)namenode服务器接受请求、校验(2)返回ok请求上传第一块数据namenode接受并返回三个节点地址本地建立连接通道和第一个节点相连接,第一个节点连接第二个节点,第二个节点连接第三个节点原路返回一个ok上传文件2读取文件原理1.请求下载a.txt文件2.接受返回元文件数据信息3.请求节点下载第一块数据3.元数据管理namenode主要负责管理元文件信息元文件: 文件块储存位置 储存大小原创 2021-02-25 23:47:33 · 184 阅读 · 0 评论