关于读Google三大论文后的感想

这三篇论文奠定了大数据计算的基础。让我依次来表达出我读这三篇论文后,我获得的知识

一、首先
Google的三大论文是Google File System、Google Mapreduce、Google BigTable。

二、组成
Google File System:一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
Google Mapreduce:一种处理和生成超大数据集的编程模型。
Google BigTable:一个用来处理海量数据的分布式、结构化数据存储系统。

Google File System发表于2003年,简称为GFS,GFS系统由单个Master和大量块服务器构成,Master存放文件系统的所有元数据,而客户端从Master获取目标数据块的位置信息后,直接和块服务器交互进行读取操作。是一个可以扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它虽运行于价格低廉的普通硬件上,但却可以提供容错功能。这使部件的错误不再被当作异常,而是将其作为常见的情况加以处理。这使它可以给大量的用户提供总体性能较高的服务。

Google Mapreduce发表于2004年,它的模型分map、reduce两部分。它以GFS为基础,利用分布式计算思想,把大量数据拆分给多个低性能电脑,处理后的结果汇总输出。所以我们只需要输入需要定义任务、去除错误的数据,静等结果即可。由于参与运算的计算机都是性能较低的计算机,有时master会罢工,这时候所有的worker就会投票选出一个新的master。为防止worker罢工,就设置了一个程序让worker每隔一定时间向master发送信号,如果master没有接收到信号,master就会将任务分配给其他的worker。这可以使低性能的电脑省去昂贵的成本,用多台电脑的处理方式增加了容错率,并行处理大大减少了处理时间。

Google BigTable发布于2006年,它是建立在 GFS 和 MapReduce之上的,是一个分布式的结构化的存储系统,是一个大型的具有容错性和自治性的系统。它可以可靠的处理PB级的数据和能够部署到千万台机器上。目前Google的很多项目都使用Bigtable存储数据。

三、总结
看了Google的三篇论文,作为一名电信类大二的学生,正好我学习的方向也是软件,这是我在AI方向有了更多的认识,拓宽了我的视野。使我了解了大数据的思想。从我的理解来说:这三驾马车若是再加上抓取数据的话,抓取,存储与快速分析,不就是大数据吗?这三大理论为大数据的发展起到了非常重要的作用。我更加坚定了我的选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值