关于读google关于大数据的三架马车的体会

最新推荐文章于 2023-10-11 15:19:37 发布

m0_45268521

最新推荐文章于 2023-10-11 15:19:37 发布

阅读量268

点赞数

本文链接：https://blog.csdn.net/m0_45268521/article/details/102634610

版权

近年google发布了关于大数据的3篇论文，分别为google mapreduce，google bigtable，google file-system，指引了大数据的至高道路，以及发展大数据的必要。

拿mapreduce来说，这个编程模型早就被大量的程序员所使用，甚至为了处理海量的数据衍生出巨大无比的数量以及方法。这个模型的灵感来自于lisp和许多其他函数式语言。这些是mapreduce的原语。

这样大部分的运算都能在这个编程模型下实现

仅需通过相同key值的reduce操作，就能合并中间的数据，从而达到处理数据的目的

众所周知，google正是应用了此项模型，才有了当今世界上最大的搜索引擎，通过网络爬虫抓取回来的海量的文档也是通过mapreduce这个模型来建立索引。

mapreduce对于程序员的最大作用可能就是减少了程序的数量对于程序员的头发十分友好。并且mapreduce可以减少机器失效，机器处理速度较慢甚至于网络阻塞带来的问题，提高了整体的性能。

mapreduce的实现依赖于一个大的管理系统这个管理系统通过发布任务来实现maoreduce的功能。

google file-system为谷歌文件管理系统，正如windows中的树形文件管理系统，gfs与windows的树形文件管理系统有些相同的设计思路，性能，可伸缩性，可靠性以及可用性，但是gfs还是与早期的文件管理系统有着明显的不同，通过了不同的选择，衍生了完全不同的设计思路gfs由此产生

gfs无非是提供了用户一种文件管理形式，gfs储存的文件被分割成固定大小的chunk，然后master分配一个专属码，同时使得linux文件保存在自己的硬盘上，而且用户也可以通过chunk与其他chunk系统相联系，以达到chunk与chunk之间的联系。实际上gfs可能是百年来可能都不会变的管理系统，它已经达到了顶峰，但是真要研究大数据还得看我bigtable

googlebigtable，可能是三篇论文中最为繁杂的一个，它是用来处理庞大的数据量，bigtable是一个分布式的结构化数据存储系统，bigtable有以下几个特点，适用性广泛，可扩展，高性能和高可用性。事实上，bigtable与数据库类似，可以通过bigtable实现数据库的内容，并且bigtable同时展现出了数据库的扩展性和高性能，但bigtable与数据库相反的是用户自己定义或推测数据的相关性。

拿googleearth来说话，google通过google是通过google
earth和网页上的google maps为用户提供卫星图像，众所周知地图的精细度要求很高，直接导致所含有的数据量十分庞大，而bigtable就完美的解决了这个问题，通过图像的压缩bigtable将图像储存其中，而且可以给用户高速的响应。

google的三架马车到处叙述完毕，其中bigtable是存储方式，mapreduce是编程模型，file-system是一种文件管理方式。国内发展大数据最著名的应当是阿里巴巴的阿里云，通过阿里云储存大量的商品信息，以及用户信息根据用户的需求定制化的推荐内容，应当是bigtable

通过对这3篇论文的简单阅读，我大致明白了大数据的远大发展前景，而且清楚的认识到giogle是如何开创大数据元年的。google通过三篇论文为后世大数据提供了一条光明的道路