Google三篇论文感想

最新推荐文章于 2023-01-03 12:42:06 发布

碧海巡天

最新推荐文章于 2023-01-03 12:42:06 发布

阅读量630

点赞数

本文链接：https://blog.csdn.net/qq_44940391/article/details/89389685

版权

    进入21世纪以来，随着上网的人越来越多，网络中产生的数据也越来越多。人们面临着两个关键问题: 1、海量数据如何存储？2、海量数据如何计算？而谷歌公司在2003年至2006年发布的三篇论文则为解决两个问题提供了思路，从此引爆了大数据时代。
    GFS文件系统是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。GFS由一个master和大量的chunkserver构成。Google设置一个master来保存目录和索引信息，这是为了简化系统果，提高性能来考虑的，但是这就会造成主成为单点故障或者瓶颈。为了消除主的单点故Google把每个chunk设置的很大，这样，由于代码访问数据的本地性，application端和master的交互会减少，而主要数据流量都是Application和chunkserver之间的访问。GFS不仅满足了人们对内存的需求，而且该系统还将文件管理得有序不乱，该系统在现在的电脑中应用范围泛，它也有许多的优点。其中GFS将整个系统的节点分为三类角色：客户端、主服务器和数据块服务器。它的特点也十分具有特色，如1.GFS实现了数据流和控制流的分离。Client和Master之间只有控制流，没有数据流，极大地降低了Master的负载。Client和Chunk Server之间直接传输数据流，同时由于文件被分为多个Chunk进行分布式存储，Client可以同时访问多个Chunk Server，从而使整个系统的IO高度并行，整体性能得到提高。2.采用中心服务器模式:（1）可以方便的操作Chunk Server（2）Master可以掌握系统内所有Chunk Server的情况，方便进行负载均衡（3）不存在元数据的一致性问题3.无论是客户端还是chunk服务器都不需要缓存文件数据:（1）文件操作大部分是流式读写，不存在大量重复的读写(2）Chunk Server上的数据存储在本地文件系统上（Linux File System），若真的出现频繁存取，那么本地文件系统的cache也可以支持（3）若建立系统cache，那么cache中的数据与Chunk Server中的数据的一致性很难保证。
    MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。顾名思义把Map和Reduce分开，它实现的主要思想也是依赖Map(映射)和Reduce（归约）。Map函数是一个处理key/value键值对的数据集合的过程，Reduce函数则是一个合并的过程。BigTable则是采用NoSQL数据库将数据存在一张大表中，通过牺牲存储的空间来换取性能。Google的后面两篇论文——MapReduce 和 BigTable都是以GFS为基础。三大基础核心技术构建出了完整的分布式运算架构。作为一名大二的学生，想要完全理解谷歌的三篇论文还需要长期的知识累积，现在最重要的是通过这些论文学习大数据的思想，开拓眼界，打好这方面的基础。