hadoop
小怪兽来啦
这个作者很懒,什么都没留下…
展开
-
HDFS(第一部分)
最近刚刚学习了Hadoop,关于中间的内容我想来跟大家分享一下我的想法。 HDFS是分布式文件系统,主要由一个Namenode来管理,而下面有很多的Datanode。Namenode就像是一个登记处,任何数据的进出都要经过它的检索和登记,而且它还会分配任务给下面的Datanode。而且HDFS会有一个冗余的特点,冗余的意思就是一份数据进行多份存储。下面的图是我找到的存储数据的时候一个很好解释冗余原创 2013-11-10 15:17:42 · 363 阅读 · 0 评论 -
MapReduce(第二部分)
MapReduce是Hadoop里面的工作架构,分为Map部分和Reduce部分。关于Map大家都知道是进行映射,映射也就是说对关键字对值进行统一的变化,但是关系是不会变的,就好比给全班同学的成绩都加一分。这时候就会有一个疑问,在映射的时候如果在一个结点里面有相同的部分会不会合并?还是合并的工作都是在Reduce里面。答案是会的,在Map工程中如果有相同部分是会合并的,合并并不是只在Reduce里原创 2013-11-10 15:38:18 · 393 阅读 · 0 评论