hadoop
文章平均质量分 67
Marlboro_2
这个作者很懒,什么都没留下…
展开
-
hadoop中MapReduce的sort(部分排序,完全排序,二次排序)
1.部分排序 MapReduce默认就是在每个分区里进行排序 2.完全排序 在所有的分区中,整体有序 1)使用一个reduce 2)自定义分区函数 不同的key进入的到不同的分区之中,在每个分区中自动排序,实现完全分区.. import org.apache.hadoop.io.IntWritable; import org...原创 2018-08-26 21:34:44 · 2644 阅读 · 0 评论 -
zookeeper在hadoop中的作用以及数据的读写和领袖推选机制
1.zk的作用 分布协调服务,解决分布式服务在工作时产生的问题 1)竞态条件 //多个主机同时对一个文件进行操作,俗称抢资源 2)死锁: //多个主机互相等待对方完成 3)不一致性: //资源文件丢失或者主机宕机 2.zk在hadoop中 hadoop的namenode的高可用及自动容灾,也就是在多namenode 情况下,对name...原创 2018-08-27 00:06:24 · 2213 阅读 · 0 评论 -
浅谈hadoop中namenode启动过程分析以及datanode数据写入的过程
1.启动namenode过程分析 分析如下 0)namenode先进入安全模式,在此模式下,文件均处于只读状态 1)namenode将fsimage镜像文件加载到内存 如图第一个 2)将edits_inprogress实例化为edits文件: edits_inprogress...原创 2018-08-25 16:46:51 · 584 阅读 · 0 评论 -
Hadoop机架感知-----数据存放副本所在datanodes是放在哪个节点?
这两张图说明了,集群之间的网络拓扑距离,经过一次网络交换机的话,网络拓扑 hadoop的数据副本是怎么放得呢? hadoop副本的存放遵循以下的原则: 1.可靠性:block存储在两个机架上以保证一个机架故障导致整个数据丢失. 2.写带宽:写操作仅仅穿过一个网络交换机,从上图中可以看出,网络拓扑距离如果是在一个机架上是的距离是最短的,但是不满足可靠性的原则. ...原创 2018-08-25 18:10:32 · 973 阅读 · 0 评论 -
hadoop中MapReduce防止数据倾斜的两种方式.
MapReduce在shuffle数据的阶段,大量的数据发送到一个节点,造成此节点繁忙甚至瘫痪,而其他节点资源空闲,为了解决这个问题,有如下两种解决方案; 1.自定义key 以单词的重复个数统计为例,假如一个文本里面都是100 有100个,how有100个 are 有100个 you有100个为例,在一个mapreduce完成后,如果reduce的个数设置为3个,可能这些数据都会跑到一个...原创 2018-08-25 20:06:11 · 932 阅读 · 0 评论