Hadoop
文章平均质量分 70
Hadoop学习笔记
maplea2012
洗心革面,重新做人
展开
-
MapReduce案例(五)
/分区规则,根据订单ID实现分区/**** @param text v2(一行的文本数据)* @param i ReduceTask个数* @return 分区编号*/@Override//根据订单id进行分区。原创 2023-04-21 13:02:05 · 1873 阅读 · 5 评论 -
MapReduce分布式运行模式-Yarn(三)
client -->请求resource Manager分配资源-->分配容器,选择一台主机,创建MRAppMaster--> 客户端发送远程shell指令给MRAppMaster(告知需要多少资源--多少容器,容器资源配置等) -->-->MRAppMaster 向resource Manager请求资源-->在Node Manager中创建容器-->MRAppMaster与容器建立联系,然后启动YarnChild进程,进而开始跑MapTask任务。原创 2023-04-20 23:31:59 · 50 阅读 · 0 评论 -
HDFS读写流程(二)
HDFS文件读写流程原创 2023-04-20 23:05:23 · 52 阅读 · 0 评论 -
MapReduce数据处理流程(四)
写满80%之后,环形缓冲区会发生溢出,在这之前需要按照Key对数据进行排序,然后将数据写出到本地磁盘(包含kv数据,以及一份索引文件-记录kv所属分区,分区偏移量等)。⑨⑩ Reduce Task通过Node manager提供的服务,基于Http协议,拉取上一步map task落地磁盘的文件。②③循环调用LineRecordReader,读取文件中的数据,具体读取方式取决于 InputFormat的类型。④返回数据,其中key为数据偏移量,value为某一行数据。的数据,并对数据进行合并。原创 2023-04-20 21:27:33 · 1456 阅读 · 0 评论 -
Hadoop集群搭建(一)
hadoop集群搭建原创 2023-04-15 15:34:14 · 436 阅读 · 0 评论