- 博客(7)
- 资源 (4)
- 收藏
- 关注
原创 MapReduce 算法设计-Inverted Indexing
倒排索引是搜索引擎中不可或缺的数据结构,利用倒排索引可以快速搜索到包涵搜索关键词的一系列文章。在倒排索引中,每个term与一系列的postings相关联,每个postings由文章的id以及payload组成,而payload常见的是该词在该文章中的词频,有的也加上了位置信息
2016-02-25 10:46:52
638
原创 MapReduce算法设计-Second Sorting
二次排序在MapReduce算法编写的另一个技巧,MapReduce在处理完数据后,智能保证数据是按key排序的,但每个key对应的值(假如有多个)不能保证也是有序的,这就需要一种特别的技巧-Second Sorting,用来保证值的有序性。
2016-01-20 10:54:02
521
原创 MapReduce 算法设计-Local Aggregation
MapReduce 算法设计-Local Aggregation本文主要内容来自由马里兰大学的Jimmy Lin 和 Chris Dyer写的《Data-Intensive Text Processing with MapReduce》一书中的第三章,如有错误,欢迎指正。 更新说明:我发现已经有很多人翻译过这本书的该部分内容,因而以后的博客会更关注程序实现以及实验部分,理论部分会给出其他博客的参考
2015-12-21 09:19:58
1462
1
原创 基于Xen的PV Guest VM与HVM性能比较
基于Xen的PV Guest VM与HVM性能比较1 半虚拟化与全虚拟化的区别Xen Paravirtualization (PV) 半虚拟化技术不需要物理机CPU含有虚拟化扩展,是完全基于软件模拟实现的虚拟化.但其需要修改操作系统,需要操作系统的支持,这限制了其扩展性,即不能支持不开源的操作系统如windows.Xen Full Virtualization (HVM) 全虚拟化又叫硬件协助虚拟化.
2015-04-25 22:49:36
1921
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人