之前在10GB级csv中找各个模式下的topn用的多路归并;现在需要在大规模网络中找clique,查阅了几篇博文,也会有内存不足的问题,感觉解决的思路应该和多路归并有些相似。老大提到了map/reduce,前几天就有收藏谷歌关于map/reduce的论文,现在要认真读这篇论文了。
摘要
①map函数打散基于键值对的数据集合。
②reduce函数合并具有相同中间key值的value值。
模型关注点:
如何分割,调度,错误处理,
之前在10GB级csv中找各个模式下的topn用的多路归并;现在需要在大规模网络中找clique,查阅了几篇博文,也会有内存不足的问题,感觉解决的思路应该和多路归并有些相似。老大提到了map/reduce,前几天就有收藏谷歌关于map/reduce的论文,现在要认真读这篇论文了。
摘要
①map函数打散基于键值对的数据集合。
②reduce函数合并具有相同中间key值的value值。
模型关注点:
如何分割,调度,错误处理,

被折叠的 条评论
为什么被折叠?