谷歌大数据三篇重要论文读后感
Google的三篇重要论文分别是Google FS、MapReduce、BigTable,这三篇论文奠定了风靡全球的大数据算法的基础。
-
Google FS发布于2003年是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
GFS 虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的
服务。 -
MapReduce发布于2004年是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一
个 Map 函数处理一个基于 key/value pair 的数据集合,输出中间的基于 key/value pair 的数据集合;然后再创建一个 Reduce 函数用来合并所有的具有相同中间 key 值的中间 value 值。MapReduce 架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心:如何分割输入数据,在大量计算机组成的集群上的调度,集群中计算机的错误处理,管理集群中计算机之间必要的通信。采用 MapReduce 架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。 -
Bigtable 发布于2006年是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服
务器上的 PB 级的数据。Google 的很多项目使用 Bigtable 存储数据,包括 Web 索引、Google Earth、Google Finance。这些应用对Bigtable 提出的要求差异非常大,无论是在数据量上(从 URL 到网页到卫星图像)还是在响应速度上(从后端的批量处理到实时数据服务)。尽管应用需求差异很大,但是,针对 Google 的这些产品,Bigtable 还是成功的提供了一个灵活的、高性能的解决方案。
谷歌的三篇论文可以说是大数据技术的鼻祖,没有认真研读过这三篇论文都不能说真正搞懂大数据。通过拜读这三篇论文我发现我实在是没看懂。