自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云端分布式搜索技术

关注云端搜索技术:elasticsearch,nutch,hadoop,nosql,mongodb,hbase,cassandra

  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

翻译 Data-Intensive Text Processing with MapReduce第三章(7)-3.6总结

这章提供一个设计MapReduce算法的指导。特别地,对于常见问题我们展示了很多设计模式来解决。总的来说,它们是: “In-mapper combining”(map内合并),combiner函数被移到了mapper里面,mapper通过多个输入记录聚集部分结果,然后只有在局部聚

2011-07-23 10:21:40 1588

翻译 Data-Intensive Text Processing with MapReduce第三章(6)-MapReduce算法设计-3.5相关连接(RELATIONAL JOINS)

3.5相关连接(RELATIONAL JOINS) Hadoop的一个流行应用领域是数据仓库。在一个企业级的环境中,一个数据仓库作为大量数据的存储地点,存储着从销售交易到商品清单几乎所有的信息。一般来说这些数据都是相关的,但是随着数据的日益增长,数据仓库被用来像存储无结构数据那样

2011-07-23 10:01:15 1644 1

翻译 Data-Intensive Text Processing with MapReduce第三章(5)-MapReduce算法设计-3.4 二次排序

3.4 二次排序MapReduce在清洗(shuffle)和排序(sort)阶段用键来为中间键值对排序,如果reducer中的计算依赖于排序顺序的话就非常简单(即之前章节说到的顺序反转模式)。然而,如果除了用键排序之外,我们也需要用值来排序呢?Google的MapReduce实现

2011-07-23 09:31:51 2018

翻译 Data-Intensive Text Processing with MapReduce第三章(4)-MapReduce算法设计-3.3计算相对频率

3.3计算相对频率 让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵中华,当n=|V|(词典大小),元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加

2011-07-23 09:23:19 2263 6

翻译 Data-Intensive Text Processing with MapReduce第三章(3)-MapReduce算法设计-3.2 PAIRS(对)和STRIPES(条纹)

3.2 PAIRS(对)和STRIPES(条纹) 在MapReduce程序中同步的一个普遍做法是通过构建复杂的键和值这样一个途径来使数据自然地适应执行框架。我们在之前的章节中涉及到这个技术,即把部分总数和计数“打包”成一个复合值(例如pair),依次从mapper传到combin

2011-07-23 08:47:22 2411

翻译 Data-Intensive Text Processing with MapReduce第三章(2)-MapReduce算法设计-3.1局部聚集

3.1本地聚集 在数据密集的分布式处理环境中,从产生它们的进程到最后消费它们的进程,中间结果的交互是同步中重要的一个方面。在一个集群环境中,除了令人尴尬的并行问题,其它都必须通过网络传输数据。此外,在Hadoop,中间结果是先写到本地磁盘然后再用网络发送出去。因为网络和磁盘因素相

2011-07-22 22:47:02 3094

翻译 Data-Intensive Text Processing with MapReduce第三章(1)-MapReduce算法设计-简介

大量高效的MapReduce程序因为它简单的编写方法而产生:除了准备输入数据之外,程序员只需要实现mapper和ruducer接口,或加上combiner和partitioner。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的,数据级别达到GB到PB级别的集群的执行

2011-07-22 21:55:04 1949

linux命令行elasticsearch查询工具es2unix

linux命令行elasticsearch查询工具es2unix

2013-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除