自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

calvin622的专栏

革故鼎新,比学赶帮

  • 博客(10)
  • 收藏
  • 关注

转载 【MapReduce】超大集群的简单数据处理 part7

<br /> 7 相关工作<br /> 很多系统都提供了严格的编程模式,并且通过对编程的严格限制来实现自动的并行计算。例如,一个结合函数可以在一个N个元素的所有前缀上进行计算,并且使用并发前缀计算,会在在N个并发节点上会耗费log N的时间[6,9,13]。MapReduce是这些模式下的,一个我们基于超大系统的现实经验的一个简化和精炼。并且,我们还提供了基于上千台处理器的容错实现。而大部分并发处理系统都只在小规模的尺度上实现,并且机器的容错还是程序员来操心的。<br />Bulk Synchronous

2010-08-07 16:48:00 1009

转载 【MapReduce】超大集群的简单数据处理 part6

<br /> 6 经验<br />我们在2003年1月写了第一个版本的MapReduce函数库,并且在2003年8月作了显著的增强,包括了本地优化,worker机器之间的动态负载均衡等等。自那以后,MapReduce函数库就广泛用于我们日常处理的问题。它现在在Google内部各个领域内广泛应用,包括:<br /> <br />。大尺度的计算机学习问题。<br />。Google News和Froogle产品的集群问题。<br />。从公众查询产品(比如Google的Zeitgeist)的报告中抽取数据。<b

2010-08-07 16:47:00 540

转载 【MapReduce】超大集群的简单数据处理 part5

<br /> 5 性能<br />在本节,我们用在一个大型集群上运行的两个计算来衡量MapReduce的性能。一个计算用来在一个大概1TB的数据中查找特定的匹配串。另一个计算排序大概1TB的数据。<br />这两个程序代表了大量的用MapReduce实现的真实的程序的主要类型-一类是对数据进行洗牌,另一类是从海量数据集中抽取少部分的关心的数据。5.1 集群配置<br /> <br />所有这些程序都是运行在一个大约有1800台机器的集群上。每台机器配置2个2G Intel Xeon支持超线程的处理器,4GB

2010-08-07 16:45:00 599

转载 【MapReduce】超大集群的简单数据处理 part4

 4 技巧虽然简单写map和reduce函数实现基本功能就已经对大部分需要都足够了,我们还是开发了一些有用的扩展,这些在本节详细描述。 4.1 分区函数MapReduce的使用者通过指定(R)来给出reduce 任务/输出文件的数量。他们处理的数据在这些任务上通过对中间结果key得分区函数来进行分区。缺省的分区函数时使用hash函数(例如hash(key)mod R)。这一般就可以得到分散均匀的分区。不过,在某些情况下,对key用其他的函数进行分区可能更有用。比如,某些情况下key是URL,那么我们希望所有

2010-08-07 16:39:00 718

转载 【MapReduce】超大集群的简单数据处理 part3

<br /> 3.2 Master的数据结构<br /> <br />master需要保存一定的数据结构。对于每一个map和reduce任务来说,都需要保存它的状态(idle,in-progress或者completed),并且识别不同的worker机器(对于非idel的任务状态)。<br />master是一个由map任务产生的中间区域文件位置信息到reduce任务的一个管道。因此,对于每一个完成得map任务,master保存下来这个map任务产生的R中间区域文件信息的位置和大小。对于这个位置和大小信息是

2010-08-07 16:38:00 718

转载 【MapReduce】超大集群的简单数据处理 part2

 3 实现MapReduce接口可以有很多种不同的实现。应当根据不同的环境选择不同的实现。比如,一个实现可以适用于小型的共享内存的机器,另一个实现可能是基于大型NUMA多处理器系统,还可能有为大规模计算机集群的实现。本届描述了Google广泛使用的计算环境:用交换机网络[4]连接的,由普通PC构成的超大集群。在我们的环境里:(1)     每个节点通常是双x86处理器,运行Linux,每台机器2-4GB内存。(2)     使用的网络设备都是常用的。一般在节点上使用的是100M/或者千M网络,一般情况下都用

2010-08-07 16:35:00 520

转载 【MapReduce】超大集群的简单数据处理 part1

<br />收件人:<br />发件人:崮山路上走9遍<br />抄送:   <br />日期:  2005-08-05<br />关于:  MapReduce: Simplified Data Processing on Large Clusters<br />Jeffrey Dean Sanjay Ghemawat<br />jeff@google.com , sanjay@google.com<br />Google , Inc.摘要<br />MapReduce是一个编程模式,它是与处理/产生海量数

2010-08-07 16:32:00 630

转载 免费的晚餐--Google技术学习

作者:江南白衣,原文出处: http://blog.csdn.net/calvinxiu/archive/2007/01/31/1498597.aspx,转载请保留出处。   如果说Google的搜索引擎是免费的早餐,Gmail们是免费的午餐的话,     http://labs.google.com/papers/ 就是Google给开发人员们的一份免费的晚餐。    不过,咋看着一桌饭菜可能不知道从哪吃起,在自己不熟悉的领域啃英文也不是一件愉快的事情。一、一份PPT与四份中文翻译     幸好,有一位面

2010-08-07 16:14:00 507

原创 工作第一周

<br />本周是入职第一周,熟悉了公司主要产品后,留下的除了知识就是对我司软件工程师们的钦佩。优秀的架构,让我这样一个新人可以非常轻松地安装部署整个分布式环境,并且使用并不熟练的JAVA语言写出了分布式应用程序。<br /> <br />接下来的日子肯定是不断地学习,不断地看到新的概念、理论、算法,我会在此记录,作为伟大思想的一个传播者,呵呵!(同时也努力成为一个伟大思想的缔造者!)

2010-08-06 23:59:00 378

原创 孙鑫Java视频教程(全12CD)

写了5年的C语言,最近由于工作关系,需要快速掌握JAVA,多亏孙鑫老师的视频,让我从入门到“精通”,推荐JAVA新人学习。特点:1、覆盖面全,讲解结合例子内容实在,看10课的介绍就知道2、如果有面向对象的基础,学起来更快3、附带PPT,可以方便摘录其中内容形成自己的学习笔记...http://www.sunxin.org/video/java.htm

2010-08-01 12:10:00 3769

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除