一、简述
Google在2003年开始陆续公布了关于GFS、MapReduce 和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,为数据领域工作者开启了大数据算法之门。然而Google 的大数据脚步显然不止于此,其后公布了Percolator、Pregel、Dremel、Spanner等多篇论文。没有止步的不仅是Google, 很多公司也跟随其脚步开发了很多优秀的产品,虽然其中不乏模仿。主流的大数据基本都是MapReduce的衍生,然而把目光聚焦到实时上就会发现:MapReuce的局限性已经渐渐浮现。下 面将讨论一下自大数据开始,Google 公布的大数据相关技术,以及这些技术的现状。从2010年之后Google在后Hadoop时代的新“三驾马车”一- -Caffeine、Pregel、Dremel 再一次影响 着全球大数据技术的发展潮流。但这还远远不够,目前Google内部使用的大数据软件Dremel使大数据处理起来更加智能。
二、GFS、MapReduce和BigTable三篇技术论文
1、Google File System
GFS阐述了Google File System的设计原理,GFS是- -个面向大规模数据:密集型应用的、可伸缩的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的服务。虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处,但是,我们设计还是以我们对自己的应用的负载情况和技术环境的分析为基础的,不管现在还是将来,GFS和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。GFS完全满足了我