信计11702班 彭梦洁
在没修这门课程之前,对大数据与人工智能只有表面的理解,只是觉得这是一个在计算机领域中是个前沿的东西。在我看来,它跟时尚中的潮流是一样的,可望而不可即。然而接触到了之后觉得这个在生活中处处都有,并不是自己想的那么高大上,比如像淘宝、亚马逊的推送。现拜读了Google三大理论之后,简单谈谈我对这方面的了解吧。
Google三大理论是Google FS、Map Reduce和Big Table。Map Reduce是基于Google FS产生的,Big Table是建立在其它两个之上的,这三大理论作为三大基础核心技术,构建了完整的分布式运算结构。
首先,谈谈2003年发布的GFS论文。GFS是一个可扩展的分布式文件系统,使用冗余的方式将被分割成很多块的文件储存于商用机器集群上。在GFS下,每个文件都被分割成固定大小的chunk。GFS由一个master和大量的chunk server构成。为了简化系统结果、提高性能来考虑,设置一个master来保存目录和索引信息,从而产生了单点故障。而为了消除这个单点故障,Google把每个chunk设置的非常大。由于master启动时信息从chunk server中得到,为了保证信息的可靠性,每个chunk都会在不同的chunk server上备份。在此系统中,为避免单个master点失效,允许一个GFS集群中有多个master存在。
其次,谈谈2004年发布的Map Reduce论文。Map Reduce是一套编程模型和用来处理和产生大规模数据集,由Map和reduce组成,Map把命令分发到多个worker上去,reduce把Map的worker计算出来的结果合并。Map Reduce可以用来处理以TB计算的大量数据集,例如像天气预报、城市外来人口统计等很多现实问题。Map Reduce解决这些问题
谈谈大数据——Google三大理论
最新推荐文章于 2020-02-18 16:18:39 发布