大数据相关问题:
1.Map-Reduce
哈希函数
典型的哈希函数拥有无限的输入值域。
不同输入值得到的哈希值,整体均匀的分布在输出域S.
MD5 , SHA-1
Map阶段,把大任务分成子任务.
Reduce阶段,子任务并发处理,然后合并结果.
注意:
1.备份的考虑,分布式存储的设计细节,容灾策略.
2.任务分配策略,任务进度跟踪的细节设计,节点状态的呈现.
3.多用户权限的控制.
map-reduce统计文章中单词出现的个数.
文章的预处理,只包含单词的文本.
分而治之,通过哈希函数将大任务分流到机器.
bitmap