hadoop
文章平均质量分 90
pany8125
这个作者很懒,什么都没留下…
展开
-
hadoop 数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 阿里的这篇比较实用,通俗易懂:数据倾斜总结 http://w转载 2015-10-12 16:57:49 · 4675 阅读 · 0 评论 -
NameNode运行原理浅析
hadoop版本:Apache Hadoop 2.6.0instance的role type主要有3个,namenode,secondary namenode和data node;其他的还有balancer,backup node等原创 2015-11-20 10:57:07 · 529 阅读 · 0 评论 -
Cloudera 从5.2.0升级到最新5.8.2的官方文档翻译
初始文档整理在pages中,怎么转换过来格式都不太好看,先发图片的吧,格式不太好的文字部分在后面。----------------------------------------------我是格式不好的文字的分割线----------------------------------------------------------------------翻译 2016-10-19 16:38:08 · 4026 阅读 · 1 评论