Hadoop的一些重大改进
1.append,HDFS支持追加写功能
2.HDFS RAID在HDFS之上构建了一个新的分布式文件系统,可以用更少副本保持可用性
3.Symlink 让HDFS支持符号链接
4.Security 知道blockId就可以绕过namenode会有安全问题
5.MRv1和MRv2
6.NameNode Federation,一个namenode会有内存上限的问题,将namenode横向扩展为多个增加可扩展性
7.NameNode HA 通过namenode热备和主从来解决,现在支持多个备份namenode
MapReduce实际需要解决的问题
1.Top K问题,最热门的K个关键字
2.K-means聚类问题,可抽象为给定正整数K和N个对象,如何将这些数据点划分为K个聚类
3.贝叶斯分类