hadoop
难瘦的小灿
这个作者很懒,什么都没留下…
展开
-
shuffle流程简介
官方流程图:Shuffle是MapReduce处理流程中的一个核心过程,它的每一个处理步骤是分散在maptask和reducetask节点上完成的,整体来看,分为3个核心操作:1、分区partition2、排序sort3、合并combine详细流程:一、MAP一个切片对应一个Maptask1、分区(可参考:MapReduce切片、并行度、分区)在将map()函数处理后得到的(key,value)对写入到缓冲区之前,需要先进行分区操作,这样就能把map任务处理的结果发送给指定的reduce原创 2020-05-10 17:28:18 · 3022 阅读 · 0 评论 -
MapReduce切片、并行度、分区
一、切片一个job的map阶段并行度由客户端在提交Job是决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理;这段逻辑及形成的切片规划描述文件,由FileInputFormat实现类的getSplits()方法完成。切片大小的确认函数方法 p...原创 2020-05-02 23:51:29 · 432 阅读 · 0 评论 -
python调用hadoop
一、MRJobMrjob是一个编写MapReduce任务的开源Python框架,它实际上对Hadoop Streaming的命令行进行了封装,因此接粗不到Hadoop的数据流命令行,使我们可以更轻松、快速的编写MapReduce任务。Mrjob通过Python的yield机制将函数变成一个生成器,通过不断调用next()去实现key:value的初始化或运算操作。#!/usr/bin/pyt...原创 2020-05-01 23:42:41 · 1718 阅读 · 0 评论 -
HADOOP的四大机制
HADOOP的四大机制一、心跳机制1.1、namenode是怎么知道各个从节点的存活状态呢?1.2、namenode什么是时候断定datanode死了?二、安全模式2.1 元数据的组成2.2集群在启动的时候namenode需要做哪些事情2.3安全模式形成三、机架策略四、负载均衡一、心跳机制namenode是集群的老大,负责集群上任务的分工,如果要进行分工,则必须知道各个从节点的存活状态。1....转载 2020-04-25 23:56:34 · 477 阅读 · 1 评论