Google三篇论文感想

    进入21世纪以来,随着上网的人越来越多,网络中产生的数据也越来越多。人们面临着两个关键问题: 1、海量数据如何存储?2、海量数据如何计算?而谷歌公司在2003年至2006年发布的三篇论文则为解决两个问题提供了思路,从此引爆了大数据时代。
    GFS文件系统是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS由一个master和大量的chunkserver构成。Google设置一个master来保存目录和索引信息,这是为了简化系统果,提高性能来考虑的,但是这就会造成主成为单点故障或者瓶颈。为了消除主的单点故Google把每个chunk设置的很大,这样,由于代码访问数据的本地性,application端和master的交互会减少,而主要数据流量都是Application和chunkserver之间的访问。GFS不仅满足了人们对内存的需求,而且该系统还将文件管理得有序不乱,该系统在现在的电脑中应用范围泛,它也有许多的优点。其中GFS将整个系统的节点分为三类角色:客户端、主服务器和数据块服务器。它的特点也十分具有特色,如1.GFS实现了数据流和控制流的分离。Client和Master之间只有控制流,没有数据流,极大地降低了Master的负载。Client和Chunk Server之间直接传输数据流,同时由于文件被分为多个Chunk进行分布式存储,Client可以同时访问多个Chunk Server,从而使整个系统的IO高度并行,整体性能得到提高。2.采用中心服务器模式:(1)可以方便的操作Chunk Server(2)Master可以掌握系统内所有Chunk Server的情况,方便进行负载均衡(3)不存在元数据的一致性问题3.无论是客户端还是chunk服务器都不需要缓存文件数据:(1)文件操作大部分是流式读写,不存在大量重复的读写(2)Chunk Server上的数据存储在本地文件系统上(Linux File System),若真的出现频繁存取,那么本地文件系统的cache也可以支持(3)若建立系统cache,那么cache中的数据与Chunk Server中的数据的一致性很难保证。
    MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。顾名思义把Map和Reduce分开,它实现的主要思想也是依赖Map(映射)和Reduce(归约)。Map函数是一个处理key/value键值对的数据集合的过程,Reduce函数则是一个合并的过程。BigTable则是采用NoSQL数据库将数据存在一张大表中,通过牺牲存储的空间来换取性能。Google的后面两篇论文——MapReduce 和 BigTable都是以GFS为基础。三大基础核心技术构建出了完整的分布式运算架构。作为一名大二的学生,想要完全理解谷歌的三篇论文还需要长期的知识累积,现在最重要的是通过这些论文学习大数据的思想,开拓眼界,打好这方面的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值