关于读Google三大论文后的感想

最新推荐文章于 2021-11-06 23:27:50 发布

DWW_WWD

最新推荐文章于 2021-11-06 23:27:50 发布

阅读量260

点赞数

本文链接：https://blog.csdn.net/DWW_WWD/article/details/103213941

版权

这三篇论文奠定了大数据计算的基础。让我依次来表达出我读这三篇论文后，我获得的知识

一、首先
Google的三大论文是Google File System、Google Mapreduce、Google BigTable。

二、组成
Google File System:一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
Google Mapreduce:一种处理和生成超大数据集的编程模型。
Google BigTable:一个用来处理海量数据的分布式、结构化数据存储系统。

Google File System发表于2003年，简称为GFS，GFS系统由单个Master和大量块服务器构成，Master存放文件系统的所有元数据，而客户端从Master获取目标数据块的位置信息后，直接和块服务器交互进行读取操作。是一个可以扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它虽运行于价格低廉的普通硬件上，但却可以提供容错功能。这使部件的错误不再被当作异常，而是将其作为常见的情况加以处理。这使它可以给大量的用户提供总体性能较高的服务。

Google Mapreduce发表于2004年，它的模型分map、reduce两部分。它以GFS为基础，利用分布式计算思想，把大量数据拆分给多个低性能电脑，处理后的结果汇总输出。所以我们只需要输入需要定义任务、去除错误的数据，静等结果即可。由于参与运算的计算机都是性能较低的计算机，有时master会罢工，这时候所有的worker就会投票选出一个新的master。为防止worker罢工，就设置了一个程序让worker每隔一定时间向master发送信号，如果master没有接收到信号，master就会将任务分配给其他的worker。这可以使低性能的电脑省去昂贵的成本，用多台电脑的处理方式增加了容错率，并行处理大大减少了处理时间。

Google BigTable发布于2006年，它是建立在 GFS 和 MapReduce之上的，是一个分布式的结构化的存储系统，是一个大型的具有容错性和自治性的系统。它可以可靠的处理PB级的数据和能够部署到千万台机器上。目前Google的很多项目都使用Bigtable存储数据。

三、总结
看了Google的三篇论文，作为一名电信类大二的学生，正好我学习的方向也是软件，这是我在AI方向有了更多的认识，拓宽了我的视野。使我了解了大数据的思想。从我的理解来说：这三驾马车若是再加上抓取数据的话，抓取，存储与快速分析，不就是大数据吗？这三大理论为大数据的发展起到了非常重要的作用。我更加坚定了我的选择。