Google三篇大数据论文总结与分析

本文总结Google的MapReduce和Bigtable大数据技术。MapReduce是一种分布式计算模型,适合处理大规模数据集。Bigtable是一个分布式存储系统,以行、列和时间戳为索引。Bigtable的Master服务器和Tablet服务器实现动态负载平衡和数据管理。区块链的去中心化特性挑战了传统金融的信用体系。
摘要由CSDN通过智能技术生成
  为了满足 Google 迅速增长的数据处理需求,我们设计并实现了 Google 文件系统(Google File System –GFS)。GFS 与传统的分布式文件系统有着很多相同的设计目标,比如,性能、可伸缩性、可靠性以及可用性。但是,我们的设计还基于我们对我们自己的应用的负载情况和技术环境的观察的影响,不管现在还是将来,GFS 和早期文件系统的假设都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。

1、组件失效被认为是常态事件,而不是意外事件。
2、以通常的标准衡量,我们的文件非常巨大。
3、绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。
4、应用程序和文件系统 API 的协同设计提高了整个系统的灵活性。
MapReduce指导的一种新的大数据计算方法,“分布式计算方法”。我如果从纯计算机理论的地方还是不懂,那么反正我就从我的专业金融角度来思考一些区块链的给金融带来的变革吧。区块链在现在最广泛的应用不得不提一下比特币,比特币也是一种虚拟货币,但它和其他的虚拟货币(如Q币)却有着很大的不同。1.比特币的总量固定不变为21000个,2.比特币通过区块链解决了分布式记账和验证的方法(即区块链以去中心化的方式解决了信用问题)。而区块链的这一优点(去中心化)也因此可以颠覆金融学的两大基础基石时间与信用中的信用这一概念,因为去中心化,许多金融中介机构赖以生存的信息不平等优势将被去掉。
Bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序 Map5。Map 的索引是行关键字、列关键字以及时间戳;Map 中的每个 value 都是一个未经解析的 byte 数组。Bigtable 包括了三个主要的组件:链接到客户程序中的库、一个 Master 服务器和多个 Tablet 服务器。针对系统工作负载的变化情况,BigTable 可以动态的向集群中添加(或者删除)Tablet 服务器。Master 服务器主要负责以下工作:为 Tablet 服务器分配 Tablets、检测新加入的或者过期失效的 Table 服务器、对 Tablet 服务器进行负载均衡、以及对保存在 GFS 上的文件进行垃圾收集。除此之外,它还处理对模式的相关修改操作,例如建立表和列族。每个 Tablet 服务器都管理一个Tablet 的集合通常每个服务器有大约数十个至上千个 Tablet)。每个 Tablet服务器负责处理它所加载的 Tablet 的读写操作,以及在 Tablets 过大时,对其进行分割。
MapReduce 是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个 Map 函数处理一个基于 key/value pair 的数据集合,输出中间的基于 key/value pair 的数据集合;然后再创建一个 Reduce 函数用来合并所有的具有相同中间 key 值的中间 value值。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值