大数据论文观后感

BigTable是一种压缩的、高性能的、高可扩展性的,基于Google文件系统(Google File System,GFS)的数据存储系统,用于存储大规模结构化数据,适用于云端计算。BigTable发展与2004年,现今已成为Google的应用程序。
Bigtable是宽列存储的典型示例之一。 它将两个任意字符串值(行键和列键)和时间戳(因此为三维映射)映射到关联的任意字节数组中。 它不是传统的关系型数据库,不支持JOIN这样的SQL语法,BigTable更像今日的NoSQL的Table-oriented,优势在于扩展性和性能。,可以更好地定义为稀疏的分布式多维排序图。
每个Table都是一个多维的稀疏图 sparse map。Table 由行和列组成,并且每个存储单元 cell 都有一个时间戳。在不同的时间对同一个存储单元cell有多份拷贝,这样就可以记录数据的变动情况。在他的例子中,行是URLs ,列可以定义一个名字,比如:contents。Contents 字段就可以存储文件的数据。或者列名是:”language”,可以存储一个“EN”的语言代码字符串。
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
而GFS与以往的文件系统有着不同的观点:
1.部件错误不再被当作异常,而是将其作为常见的情况加以处理。
2.按照传统的标准,文件都非常大。
⒊大部分文件的更新是通过添加新数据完成的,而不是改变已存在的数据。
4.工作量主要由两种读操作构成:对大量数据的流方式 的读操作和对少量数据的随机方式的读操作。
5.工作量还包含许多对大量数据进行的、连续的、向文件添加数据的写操作。
⒍系统必须高效地实现定义完好的大量客户同时向同一个文件的添加操作的语义。
7.高可持续带宽比低延迟更重要。
(百度百科)
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的返回它所完成的工作和最新的状态。
MapReduce有许多功能:
1.数据划分和计算任务调度
2.数据/代码互定位
3.系统优化
4.出错检测和恢复

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值