海量数据
文章平均质量分 81
Java2King
淘宝。。。。数据平台
展开
-
技术领域—海量存储计算
PB时代的来临Petabyte,2的50次方个字节。这个对很多人还是很陌生的计量单位,已经变得越来越普遍和触手可及。2004年8月,GOOGLE日常任务输入的数据已经达到了3PB ;2005年Mark Hurd从Teradata来到HP出任CEO,开始建设基于Neo View的8PB的HP EDW。2006年,YAHOO构建了世界上第一个基于ORACLE RAC的PB级别数据中心。2007年9月,GOOGLE的日常任务的输入数量膨胀到403个PB,而输出文件的尺寸也达到了14PB。2008年6月,wired转载 2010-10-14 09:49:00 · 1493 阅读 · 0 评论 -
大量小文件的实时同步方案
传统的文件同步方案有rsync(单向) 和 unison(双向)等,它们需要扫描所有文件后进行比对,差量传输。如果文件数量达到了百万甚至千万量级,扫描所有文件将非常耗时。而且正在发生变化的往往是其中很少的一部分,这是非常低效的方式。之前看了Amazon的Dynamo的设计文档,它们每个节点的数据是通过Hash Tree来实现同步,既有通过日志来同步的软实时特点(msyql, bdb等),也可以保证最终数据的一致性(rsync, unison等)。Hash Tree的大体思路是将所有数据存储成树状结构,每个节转载 2010-11-09 16:37:00 · 2325 阅读 · 0 评论 -
微博feed系统的推(push)模式和拉(pull)模式和时间分区拉模式架构探讨
<br /><br />微博feed系统的推(push)模式和拉(pull)模式和时间分区拉模式架构探讨<br /> [文章作者:孙立 链接:http://www.cnblogs.com/sunli/ 更新时间:2010-08-24]<br /> sns系统,微博系统都应用到了feed(每条微博或者sns里的新鲜事等我们称作feed)系统,不管是twitter.com或者国内的新浪微博,人人网等,在各种技术社区,技术大会上都在分享自己的feed架构,也就是推拉模式(timyang上次也分享了转载 2010-11-15 15:20:00 · 6874 阅读 · 2 评论