这三篇论文奠定了大数据计算的基础。让我依次来表达出我读这三篇论文后,我获得的知识
一、首先
Google的三大论文是Google File System、Google Mapreduce、Google BigTable。
二、组成
Google File System:一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
Google Mapreduce:一种处理和生成超大数据集的编程模型。
Google BigTable:一个用来处理海量数据的分布式、结构化数据存储系统。
Google File System发表于2003年,简称为GFS,GFS系统由单个Master和大量块服务器构成,Master存放文件系统的所有元数据,而客户端从Master获取目标数据块的位置信息后,直接和块服务器交互进行读取操作。是一个可以扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它虽运行于价格低廉的普通硬件上,但却可以提供容错功能。这使部件的错误不再被当作异常,而是将其作为常见的情况加以处理。这使它可以给大量的用户提供总体性能较高的服务。
Google Mapreduce发表于2004年,它的模型分map、reduce两部分。它以GFS为基础,利用分布式计算思想,把大量数据拆分给多个低性能电脑,处理后的结果汇总输出。所以我们只需要输入需要定义任务、去除错误的数据,静等结果即可。由于参与运算的计算机都是性能较低的计算机,有时master会罢工,这时候所有的worker就会投票选出一个新的master。为防止worker罢工,就设置了一个程序让worker每隔一定时间向master发送信号,如果master没有接收到信号,master就会将任务分配给其他的worker。这可以使低性能的电脑省去昂贵的成本,用多台电脑的处理方式增加了容错率,并行处理大大减少了处理时间。
Google BigTable发布于2006年,它是建立在 GFS 和 MapReduce之上的,是一个分布式的结构化的存储系统,是一个大型的具有容错性和自治性的系统。它可以可靠的处理PB级的数据和能够部署到千万台机器上。目前Google的很多项目都使用Bigtable存储数据。
三、总结
看了Google的三篇论文,作为一名电信类大二的学生,正好我学习的方向也是软件,这是我在AI方向有了更多的认识,拓宽了我的视野。使我了解了大数据的思想。从我的理解来说:这三驾马车若是再加上抓取数据的话,抓取,存储与快速分析,不就是大数据吗?这三大理论为大数据的发展起到了非常重要的作用。我更加坚定了我的选择。