![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式与海量数据
文章平均质量分 91
liuxinglanyue
这个作者很懒,什么都没留下…
展开
-
Jeff Dean的Stanford演讲
转自:http://coolshell.cn/articles/3301.htmlGoogle 公司的 Jeff Dean 在Stanford大学做了一个非常 精彩的演讲(视频未墙)。我觉得我们每一个人都应该去看一看这个视频,当然,没有字幕,需要不错的听力,当然,我不可能全部翻译出来,因为我也不是完全能听懂,下面是一些相关的Notes,供你参夸,并欢迎牛人指证。比较了从1999年到...原创 2010-12-16 20:30:18 · 124 阅读 · 0 评论 -
Bigtable:一个分布式的结构化数据存储系统(转载)
本文的英文原文为Google在2006年发布的Google Bigtable paper本文的翻译版本由Alex完成,原文地址为: http://blademaster.ixiezi.com/这是我很长时间以来一直想要翻译的文章,不过由于其文太长,以及本人精力有限,未能如愿,今天偶遇此文,感觉译者此文的翻译已远远超越本人,因此将此翻译版本转载于此.Bigtable:一个...原创 2010-12-20 20:23:17 · 139 阅读 · 0 评论 -
云计算背后的秘密(1)-MapReduce(转)
之前在IT168上已经写了一些关于云计算误区的文章,虽然这些文章并不是非常技术,但是也非常希望它们能帮助大家理解云计算这一新浪潮,而在最近几天,IT168的唐蓉同学联系了我,希望我能将云计算背后的一些核心技术介绍给IT168的读者,虽然我本身已经忙于其它事务,但是由于云计算的核心技术是我最熟悉和最擅长,而且宣传这些技术也是我写《剖析云计算》一书和建立PeopleYun.com站点的初衷,所...原创 2010-12-20 20:29:28 · 117 阅读 · 0 评论 -
云计算背后的秘密(2)-GFS(转)
由于周日Linode在加州机房出现停电事故,所以这两天PeopleYun没法访问,在这里向大家表示歉意由于搜索引擎需要处理海量的数据,所以Google的两位创始人Larry Page和Sergey Brin在创业初期设计一套名为“BigFiles”的文件系统,而GFS(全称为“Google File System”)这套分布式文件系统则是“BigFiles”的延续。技术概览首先,介...原创 2010-12-20 20:30:30 · 125 阅读 · 0 评论 -
云计算背后的秘密(3)-BigTable(转)
由于在Google的数据中心存储PB级以上的非关系型数据时候,比如网页和地理数据等,为了更好地存储和利用这些数据,Google开发了一套数据库系统,名为“BigTable”。技术概览从技术来讲,BigTable不是一个传统的关系型的数据库,也不支持类似关联(join)这样高级的SQL操作,取而代之的是多级映射的数据结构,并支持大规模数据处理、高容错性和自我管理等特性,提供PB级的存储能...原创 2010-12-20 20:31:15 · 99 阅读 · 0 评论 -
云计算背后的秘密(4)-Chubby(转)
简单的来说,Chubby属于分布式锁服务,通过Chubby,一个分布式系统中的上千个client都能够对某项资源进行“加锁”或者“解锁”,常用于BigTable和MapReduce等系统内部的协作工作,在实现方面是通过对文件的创建操作来实现“加锁”,并在其内部采用了著名科学家Leslie Lamport的Paxos算法。技术概览在实现机制方面,Chubby本身是一个分布式的文件系统,并...原创 2010-12-20 20:31:55 · 175 阅读 · 0 评论 -
云计算背后的秘密(5)-Google的数据中心优化技术(转)
谈到云计算的诞生,肯定离不开一个地方,那就是Google的数据中心,而且Google的数据中心,不仅拥有数量庞大的服务器集群,而且整体运行效率很高,PUE(Power Usage Effectiveness,电力使用效率)很低,当然这些成绩肯定离不开数据中心高温化,12V电池和服务器整合这三个数据中心优化技术。数据中心高温化大中型数据中心的PUE普遍在2左右,也就是在服务器等计算设备上...原创 2010-12-20 20:32:37 · 97 阅读 · 0 评论 -
北大的分布式系统在线教材(转)
最近有位博友问我怎么学习分布式系统?之后我就向他介绍来自北大网络和分布式实验室副教授Hongfei Yan博士的教材,链接为http://net.pku.edu.cn/~course/cs501/2008/schedule.html,在这里和大家共享,希望大家能喜欢!...原创 2010-12-20 20:44:10 · 277 阅读 · 0 评论 -
为什么云计算是比较安全的?
转自:人云亦云本文将主要关注云计算的安全性,也是2009-5-17号的《最新云计算信息》,因为本文涉及到我一些还不是很健全的观点,所以希望大家能多多指正。 今天无论是在csdn的,还是在其它IT媒体都争相报道了Amazon在上周内出现四次小规模故障,并对少量用户产生了影响。虽然最近这几次故障相对与之前的几次(比如Amazon S3云存储服务在2008年出现了长达8小时的故障,使...原创 2010-12-20 20:45:10 · 209 阅读 · 0 评论 -
Google新一代实时搜索系统的核心机制
转自:人云亦云最近,Google发布一篇关于其新一代实时搜索系统核心机制的论文《Large-scale Incremental Processing Using Distributed Transactions and Notifications》,在这篇论文中介绍名为“Percolator”的一个基于BigTable的系统,在功能上其非常类似传统数据库的触发器(Trigger),但是在...原创 2010-12-20 20:46:56 · 82 阅读 · 0 评论 -
海量数据处理专题(一)——开篇
转:http://blog.redfox66.com/post/mass-data-topic-1-start.aspx大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处...原创 2010-12-03 20:48:47 · 45 阅读 · 0 评论 -
海量数据处理专题(二)——Bloom Filter
转:http://blog.redfox66.com/post/mass-data-topic-2-bloom-filter.aspx【什么是Bloom Filter】Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把...原创 2010-12-03 20:49:27 · 64 阅读 · 0 评论 -
海量数据处理专题(三)——Hash
转:http://blog.redfox66.com/post/mass-data-topic-3-hash.aspx【什么是Hash】 Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可...原创 2010-12-03 20:50:09 · 129 阅读 · 0 评论 -
海量数据处理专题(四)——Bit-map
转:http://blog.redfox66.com/post/mass-data-4-bitmap.aspx【什么是Bit-map】所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7...原创 2010-12-03 20:50:57 · 111 阅读 · 0 评论 -
海量数据处理专题(六)——双层桶划分
转:http://blog.redfox66.com/post/mass-data-topic-6-multi-dividing.aspx【什么是双层桶】 事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。【适用范围】 第k大,中位数,不重复或重复...原创 2010-12-03 20:51:34 · 198 阅读 · 0 评论 -
YunTable开发日记(3) – BigTable的数据模型和调用接口(转)
本文将深入分析BigTable的数据模型,并介绍它是如何被调用的。数据模型就像向我之前所说的那样,其实BigTable顾名思义,是一个非常大的表,而且是一个能存储几十亿行(Row)和几千列(Column)的非常巨大的表。什么表会怎么大呢?接下来,举一些简单的例子,比如:用于中国所有公民的个人信息和Internet上所有网站内容的表,这些表的总体规模可以达到PB以上级别,而且这些表的规模...原创 2010-12-20 20:20:50 · 89 阅读 · 0 评论 -
【google论文四】Bigtable:结构化数据的分布式存储系统(下)
转载请注明:http://duanple.blog.163.com/blog/static/709717672010916103257933/ 作者 phylips@bmy7.性能评价我们建立了一个N个tablet服务器的Bigtable集群来测量Bigtable伴随着N的变化的性能和可扩展性。Tablet服务器配置成由含有1G内存 400G IDE硬盘的1786个机器组成的GFS cel...原创 2010-12-18 14:08:15 · 200 阅读 · 0 评论 -
【google论文一】面向星球的网络搜索:google集群架构
转载请注明:http://duanple.blog.163.com/blog/static/70971767201091102339246/ 作者 phylips@bmy为了能够支持可扩展的并行化,google的网络搜索应用让不同的查询由不同的处理器处理,同时通过划分全局索引,使得单个查询可以利用多个处理器处理。针对所要处理的工作负载类型,google的集群架构由15000个普通p...原创 2010-12-17 22:18:14 · 162 阅读 · 0 评论 -
【google论文二】Google文件系统(上)
转载请注明:http://duanple.blog.163.com/blog/static/7097176720109145829346/ 作者 phylips@bmy 摘要我们设计实现了google文件系统,一个面向大规模分布式数据密集性应用的可扩展分布式文件系统。它运行在廉价的商品化硬件上提供容错功能,为大量的客户端提供高的整体性能。 尽管与现有的分布式文件系统具有很多相同的目...原创 2010-12-17 22:19:15 · 125 阅读 · 0 评论 -
【google论文二】Google文件系统(中)
转载请注明:http://duanple.blog.163.com/blog/static/7097176720109151211526/ 作者 phylips@bmy3.系统交互我们是以尽量最小化master在所有操作中的参与度来设计系统的。在这个背景下,我们现在描述下client,master以及chunkserver如何交互来实现数据变更,记录append以及快照的。 3.1...原创 2010-12-17 22:19:57 · 102 阅读 · 0 评论 -
【google论文二】Google文件系统(下)
转载请注明:http://duanple.blog.163.com/blog/static/7097176720109151534289/ 作者 phylips@bmy 6.测量在这一节,我们用一些小规模的测试来展示GFS架构和实现固有的一些瓶颈,有一些数字来源于google的实际集群。 6.1小规模测试我们在一个由一个master,两个master备份,16个chunkser...原创 2010-12-17 22:20:34 · 124 阅读 · 0 评论 -
【google论文三】MapReduce:简化大集群上的数据处理(上)
转载请注明:http://duanple.blog.163.com/blog/static/709717672010923203501/ 作者 phylips@bmy 摘要:MapReduce是一个编程模型以及用来处理和生成大数据集的一个相关实现。用户通过描述一个map函数,处理一组key/value对进而生成一组key/value对的中间结果,然后描述一个reduce函数...原创 2010-12-17 22:27:51 · 191 阅读 · 0 评论 -
【google论文三】MapReduce:简化大集群上的数据处理(下)
转载请注明:http://duanple.blog.163.com/blog/static/70971767201092673696/ 作者 phylips@bmy5.性能在本节中我们将通过运行在大集群的机器上的两个计算来测量MapReduce的性能。一个计算在大概1TB的数据中搜索给定模式的文本。另一个计算对接近1T的数据进行排序。 这两个程序就可以代表MapReduce用户所写的实...原创 2010-12-17 22:28:27 · 204 阅读 · 0 评论 -
海量数据分析:Sawzall并行处理(中文版论文 一)
from: http://peopleyun.com/?p=896Google的工程师为了方便内部人员使用MapReduce,研发了一种名为Sawzall的DSL,同时Hadoop也推出了类似Sawzall的Pig语言,但在语法上面有一定的区别。今天就给大家贴一下Sawall的论文,值得注意的是其第一作者是UNIX大师之一(Rob Pike)。原文地址,并在这里谢谢译者崮山路上走9遍。...原创 2010-12-18 13:35:54 · 203 阅读 · 0 评论 -
海量数据分析:Sawzall并行处理(中文版论文 二)
在某些情况下,重新初始化是不需要的。例如,我们可能会创建一个很大的数组或者影射表来对每条记录进行分析。为了避免对每条记录都作这样的初始化,Sawzall有一个保留字static可以确保这个变量只初始化一次,并且是在处理每条记录的最开始的初始化的时候执行。这就是一个例子: static CJK: map[string] of string = { “zh” : “Ch...原创 2010-12-18 13:38:08 · 290 阅读 · 0 评论 -
google背后的分布式架构(一) 转载
http://bigweb.group.iteye.com/group/topic/5749Google是与众不同的。它的独特不仅仅表现于革新的思维和充满创意的应用 (比如那个大堂里的地球模型),更在于其有别常规的IT策略…… 加利福尼亚州山景城(Mountain View)Google公司(Google,下称Google)总部有一个43号大楼,该建筑的中央大屏幕上显示着一个与Google地球...原创 2010-12-18 13:45:09 · 253 阅读 · 0 评论 -
google 背后的分布式架构(二) 转载
Google's BigTable 原理 (翻译) 题记:google 的成功除了一个个出色的创意外,还因为有 Jeff Dean 这样的软件架构天才。 ------ 编者 官方的 Google Reader blog 中有对BigTable 的解释。这是Google 内部开发的一个用来处理...原创 2010-12-18 13:46:20 · 126 阅读 · 0 评论 -
google 背后的分布式架构(三) 转载
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的 用户提供总体性能较高的服务。 出处:http://labs.google.com/papers/gfs.html 1、设计概览 (1)设计想定 GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动...原创 2010-12-18 13:47:05 · 193 阅读 · 0 评论 -
海量查询的数据优化
http://javagp.group.iteye.com/group/topic/12269一、因情制宜,建立“适当”的索引 建立“适当”的索引是实现查询优化的首要前提。 索引(index)是除表之外另一重要的、用户定义的存储在物理介质上的数据结构。当根据索引码的值搜索数据时,索引提供了对数据的快速访问。事实上,没有索引,数据库也能根据SELECT语句成功地检索到结果,但随着表变得越来越...原创 2010-12-18 13:50:48 · 70 阅读 · 0 评论 -
海量查询的数据优化(补充)
聚集索引是如此的重要和珍贵,所以笔者总结了一下,一定要将聚集索引建立在: 1、您最频繁使用的、用以缩小查询范围的字段上; 2、您最频繁使用的、需要排序的字段上。 另可参考如下文章:http://www.iteye.com/topic/181328 某知名企业电话面试http://www.iteye.com/topic/479461 SQL Server 中索引底层实现http:...原创 2010-12-18 13:54:12 · 69 阅读 · 0 评论 -
【google论文四】Bigtable:结构化数据的分布式存储系统(上)
转载请注明:http://duanple.blog.163.com/blog/static/709717672010961173782/ 作者 phylips@bmy摘要Bigtable是设计用来管理那些可能达到很大大小(比如可能是存储在数千台服务器上的数PB的数据)的结构化数据的分布式存储系统。Google的很多项目都将数据存储在Bigtable中,比如网页索引,google 地球,...原创 2010-12-18 14:07:41 · 723 阅读 · 0 评论 -
海量数据处理专题(五)——堆
转:http://blog.redfox66.com/post/mass-data-topic-5-heap.aspx【什么是堆】 概念:堆是一种特殊的二叉树,具备以下两种性质 1)每个节点的值都大于(或者都小于,称为最小堆)其子节点的值 2)树是完全平衡的,并且最后一层的树叶都在最左边 这样就定义了一个最大堆。如下图用一个数组来表示堆:那么下面介绍二叉堆:二叉堆是一种完全二叉...原创 2010-12-03 20:53:18 · 303 阅读 · 0 评论