算法
laigood
自学能力强
展开
-
Data-Intensive Text Processing with MapReduce第三章(3)-MapReduce算法设计-3.2 PAIRS(对)和STRIPES(条纹)
3.2 PAIRS(对)和STRIPES(条纹) 在MapReduce程序中同步的一个普遍做法是通过构建复杂的键和值这样一个途径来使数据自然地适应执行框架。我们在之前的章节中涉及到这个技术,即把部分总数和计数“打包”成一个复合值(例如pair),依次从mapper传到combin翻译 2011-07-23 08:47:22 · 2370 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(4)-MapReduce算法设计-3.3计算相对频率
3.3计算相对频率 让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵中华,当n=|V|(词典大小),元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加翻译 2011-07-23 09:23:19 · 2221 阅读 · 6 评论 -
Data-Intensive Text Processing with MapReduce第三章(1)-MapReduce算法设计-简介
大量高效的MapReduce程序因为它简单的编写方法而产生:除了准备输入数据之外,程序员只需要实现mapper和ruducer接口,或加上combiner和partitioner。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的,数据级别达到GB到PB级别的集群的执行翻译 2011-07-22 21:55:04 · 1929 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(6)-MapReduce算法设计-3.5相关连接(RELATIONAL JOINS)
3.5相关连接(RELATIONAL JOINS) Hadoop的一个流行应用领域是数据仓库。在一个企业级的环境中,一个数据仓库作为大量数据的存储地点,存储着从销售交易到商品清单几乎所有的信息。一般来说这些数据都是相关的,但是随着数据的日益增长,数据仓库被用来像存储无结构数据那样翻译 2011-07-23 10:01:15 · 1627 阅读 · 1 评论 -
Data-Intensive Text Processing with MapReduce第三章(7)-3.6总结
这章提供一个设计MapReduce算法的指导。特别地,对于常见问题我们展示了很多设计模式来解决。总的来说,它们是: “In-mapper combining”(map内合并),combiner函数被移到了mapper里面,mapper通过多个输入记录聚集部分结果,然后只有在局部聚翻译 2011-07-23 10:21:40 · 1573 阅读 · 0 评论