关于谷歌三篇重要论文的读后感

最新推荐文章于 2019-12-21 19:36:56 发布

HaoYarSakura

最新推荐文章于 2019-12-21 19:36:56 发布

阅读量489

点赞数

本文链接：https://blog.csdn.net/Bachong_Ying/article/details/103223114

版权

关于谷歌三篇重要论文的读后感

在这两个星期的时间里，我认真的阅读了谷歌的三篇关于大数据算法基础的重要论文。这三篇论文分别是Google File System、Google MapReduce和Google Bigtable。谷歌的这些论文中并没有公布这三个产品的源代码，但是却非常详细的介绍了其中的设计思想和功能体现，奠定了大数据算法的基础。因为自己的眼界和理解水平有限，所以只能浅显的谈一下自己的感想。
一.Google File System（GFS）
为了顺应时代的发展和需求，为了满足Google迅速增长的数据处理要求，谷歌设计了Google文件系统（GFS）。GFS与传统的分布式文件系统有着很多相同的设计目标，但是前者的设计还基于Google他们自己的应用的负载情况和技术环境的观察的影响，是一种与传统文件系统完全不同的设计思路。GFS运行在低性能的电脑上时，可能会出现许多问题，比如人为的失误、各种bug，网络中断、硬盘损坏以及电源失效等问题，Google认为其是一种常态而并非异常。所以，持续的监控、错误侦测、灾难冗余以及自动恢复的机制集成在GFS中，这是GFS的一个优点。同时，GFS采用在文件尾部追加数据的文件修改方式，取代了覆盖原有数据的方式，减少客户端对数据块的缓存，优化了性能，保证了原子性。然后扩展标准文件系统接口、放松接口限制来改进整个系统。此外，GFS还有一个类似心跳机制的设计，使用心跳信息周期性地和每个Chunk服务器通讯，用来检测其状态，好确定其是否“存活”。这更加证明了计算机的思想都是来源于生活，而去更好的服务于生活。
二.Google MapReduce
MapReduce 是一个处理和生成超大数据集的算法的编程模型。MapReduce 库的用户用两个函数表达这个计算：Map 和 Reduce。用户自定义的Map函数接受一个输入的 key/value pair 值，然后产生一个中间 key/value pair 值的集合。MapReduce 库把所有具有相同中间 key 值 I 的中间 value 值集合在一起后传递给 reduce 函数来合并这些value值。就像处理一堆不同类型的资料，Map函数把类型相同的找出来，而Reduce函数则是将这些资料合并在一起然后输出。几千台廉价设备同时并行处理大大增加了容错率，减少了运行处理时间。
三.Google Bigtable
Bigtable 是一个分布式的结构化数据存储系统，用来储存海量的数据，特点是：适用性广泛、可扩展、高性能和高可用性。每个Table都是一个多维的稀疏图，Table由行和列组成，其持久化状态信息保存在 GFS上，通过储存单位的时间戳，来记录数据变动情况，这种列式存储广泛应用在搜索引擎。随着系统中Table服务器的增长，系统的整体吞吐量有了巨大的增长，增长的倍率超过了 100，其效果是显而易见的。BigTable用GFS来存储日志和数据文件，按SSTable文件的格式存储数据，用Chubby管理元数据
以上三者互相关联，相辅相成。现在正是大数据飞速发展的时代，多了解与此相关的信息对于我们学习计算机的年轻人来说十分有意义。未来世界的发展必然是极其迅猛的，我们要努力学习知识，丰富我们的大脑，把握住机会，创造属于我们的明天。