浅谈Google三篇大数据论文

如今大热的词很多但其中肯定会包括人工智能、大数据。就今年教育部发布的高校新增专业中热度最高的当属数据科学与大数据技术,而机器人工程专业也紧随其后。机器人工程之所以如此火爆与人工智能的发展密不可分。起初认识到的大数据应该是电影选角保证票房的问题上。根据广大民众对于自己喜爱演员饰演电影角色而是否愿意为该电影买单做了大量调查再根据所得的大量数据经进行分析从而选出演员,此举为票房大卖作保障。对于人工智能的印象始于一部名为《人工智能》的电影再后来就是阿尔法狗与李世石的围棋大战。总之呢认为他们很高大上,实际上他们也确实很高大上,但对于我们却也并不是那么的遥不可及。
花几天时间看了Google关于大数据的三篇经典论文,说实话没怎么看懂。像学单词一样刚开始她不认识我我不认识她,后来她认识我我还是不认识她,到现在我感觉认识她。过程不美好结果也不是很好但总算有些收获。Google的三篇大数据经典论文分别是GFS、MapReduce、BigTable。以下来说一些我个人的理解。
个人认为GFS是其中最易理解的一篇,它表述了Google file system的设计原理,GFS是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。它与传统的分布式文件相比有所相同也有很多不同,在原有的基础上衍生出不同的设计思路可以说是原有系统的升级2.0版本。我印象最深的是 应用程序与文件系统API的协同设计提高了整个系统的灵活性。使得多个客户端可以同时进行追加操作,不必一个一个来进行追加并且数据的一致性也可得到有效的保障,让我们得到很大的便利。举个我们熟悉的例子,腾讯文档的多人协作在线文档可支持多人同时填写大大提高了工作效率。API即操作系统留给应用程序的一个接口,可通过调用让系统去运行程序,相当于台子搭好了,可以直接上台表演了。
MapReduce可以看成是一个编程模型,一种新的大数据计算方法。简单来说就是将一个大问题分成一个个小问题来解决最后在进行结果汇总。这让我联想到基因工程,重所周知这个工程量超巨大,需要集多国之力来进行解决。这就涉及到任务的分配和结果汇总的问题。同理MapReduce架构的程序可以在众多计算机上进行并行化处理。将数TB的数据进行分割再分配给数千台计算机进行处理,实现将数据拆分再合并的过程。
BigTable是一个分布式的结构化数据存储系统,用来存储和处理海量数据。没读太懂,感觉就像一个快递仓库,将快递分门别类的存放之后再根据需要派送出去。最能够理解的就是通过缓存来提高性能这一项优化,就像我们平时追剧网很慢很卡顿,我们往往会暂停一下这就是缓存的一种形式了。
看过Google的大数据论文后感觉它更高大上了,但同时也觉得它亲近了许多,生活中随处可见其相关应用,它也并不是那么遥不可及。

展开阅读全文

没有更多推荐了,返回首页