分布式计算
文章平均质量分 67
念雨无声
这个作者很懒,什么都没留下…
展开
-
MapReduce算法设计-Second Sorting
二次排序在MapReduce算法编写的另一个技巧,MapReduce在处理完数据后,智能保证数据是按key排序的,但每个key对应的值(假如有多个)不能保证也是有序的,这就需要一种特别的技巧-Second Sorting,用来保证值的有序性。原创 2016-01-20 10:54:02 · 520 阅读 · 0 评论 -
MapReduce算法设计-计算单词共现矩阵
利用MapReduce计算单词共现矩阵原创 2016-01-10 13:00:35 · 3655 阅读 · 0 评论 -
MapReduce 算法设计-Local Aggregation
MapReduce 算法设计-Local Aggregation本文主要内容来自由马里兰大学的Jimmy Lin 和 Chris Dyer写的《Data-Intensive Text Processing with MapReduce》一书中的第三章,如有错误,欢迎指正。 更新说明:我发现已经有很多人翻译过这本书的该部分内容,因而以后的博客会更关注程序实现以及实验部分,理论部分会给出其他博客的参考原创 2015-12-21 09:19:58 · 1460 阅读 · 1 评论 -
MapReduce 算法设计-Inverted Indexing
倒排索引是搜索引擎中不可或缺的数据结构,利用倒排索引可以快速搜索到包涵搜索关键词的一系列文章。 在倒排索引中,每个term与一系列的postings相关联,每个postings由文章的id以及payload组成,而payload常见的是该词在该文章中的词频,有的也加上了位置信息原创 2016-02-25 10:46:52 · 637 阅读 · 0 评论