谷歌三篇重要论文读后感

Google在03至06年发表了著名的三大论文——GFS、BigTable、MapReduce,用来实现一个大规模的管理计算系统,这三篇论文奠定了风靡全球的大数据算法的基础。

首先,对于Bigtable来说,他发布于2006年,Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。我认为它具有非常多的优点,如:适用性广泛、可扩展、高性能、可用性等等。现在Google的很多项目都使用Bigtable存储数据。在许多方面,Bigtable和数据库很类似:它使用了很多数据库的实现策略。当储存数据时,Bigtable把已经储存的数据都看作字符串,但是他不会去解析这些字符串,而是把这种结构化的字符串串行化到字符串中。因此用户可以准确了解到这些数据的位置,给用户省去了找这些数据很大的麻烦。最令我感兴趣的是他的构件,他是在建立在几个Google基本构件的基础上的。通过这几个构件当你每次需要查找数据时,只需要通过一次硬盘搜索就可以在硬盘读取相应的数据块。它不同于Boxwood直接新建文件系统,数据库等高级服务的基础构件,而是直接为客服的需求提供服务,因此收到了广大用户的喜爱。但是他也有一定的缺点,比如所,他的读取可能不太稳定,实时性也不太好,可能这就是他存在的美中不足的地方。

其次,对于Google File System来说,他是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。它包括client、master、chunk sever三类角色。尽管我认为它的设计与许多传统的系统有许多相似之处,但是他的设计是依赖我们对自己应用的负载和技术环境的分析为基础的。他满足了我们用户对储存的需要,同时他是又许多便宜的普通的组件组成,而且即使在数个G大小的文件也是可以有效的管理。最后还要提到GFS的接口和架构,在GFS的接口中,它提供了一套类似传统文件系统的API接口,可以按照以最低的成本创建一个文件或目录。在GFS的架构中,它以库的形式被连接到用户程序中,这实现了对数据进行简单的操作。GFS与传统文件系统明显的差异是它不需要很强大的硬件支撑就可以进行大规模的数据处理。
即使由破烂的电脑组成 它也能够迅速侦测甚至恢复失效的组件 从而不影响工作的进程。当使用GFS的程序时,可以利用一些简单技术实现宽松的一致性模型,在实际应用中我们所有的应用程序对文件的写入操作都是尽量采用数据追加方式。可以说Google文件系统展示了一个使用普通硬件支持大规模数据处理的系统的特质。

最后就是Google MapReduce了,它实际上是一个编程模型,也是一个实现超大数据的处理。通过它对系统的各个终端机器进行管理,程序员们可以最大程度地利用计算机资源。MapReduce可以对很多复杂的问题进行简单的解决,这对处理一些现实问题非常有帮助,如空气污染指数、城市外来人口统计等。而它是如何做到的呢?这也要归功于分布式原理。对于一个复杂的问题,并不是直接丢给一台高性能的电脑去做而是分配给许多台低性能的电脑,不仅提高了效率也提高了容错率。可以说到目前为止,MapReduce最成功的应用就是重写了Google网络搜索服务所使用到的index系统。因此减少了针对网络输入量,也解决了由于机器失效导致的数据丢失问题。

总而言之,这三篇论文都是以大数据算法为基础,想要完全理解谷歌的这篇论文还需要长期的积累,现在最重要的是通过这篇论文学习大数据的思想,放宽视野、立足世界。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值