大数据论文观后感

最新推荐文章于 2024-08-05 08:58:14 发布

qq_45771010

最新推荐文章于 2024-08-05 08:58:14 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/qq_45771010/article/details/102637529

版权

BigTable是一种压缩的、高性能的、高可扩展性的，基于Google文件系统（Google File System，GFS）的数据存储系统，用于存储大规模结构化数据，适用于云端计算。BigTable发展与2004年，现今已成为Google的应用程序。
Bigtable是宽列存储的典型示例之一。 它将两个任意字符串值（行键和列键）和时间戳（因此为三维映射）映射到关联的任意字节数组中。它不是传统的关系型数据库，不支持JOIN这样的SQL语法，BigTable更像今日的NoSQL的Table-oriented，优势在于扩展性和性能。，可以更好地定义为稀疏的分布式多维排序图。
每个Table都是一个多维的稀疏图 sparse map。Table 由行和列组成，并且每个存储单元 cell 都有一个时间戳。在不同的时间对同一个存储单元cell有多份拷贝，这样就可以记录数据的变动情况。在他的例子中，行是URLs ，列可以定义一个名字，比如：contents。Contents 字段就可以存储文件的数据。或者列名是：”language”，可以存储一个“EN”的语言代码字符串。
GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
而GFS与以往的文件系统有着不同的观点：
1.部件错误不再被当作异常，而是将其作为常见的情况加以处理。
2.按照传统的标准，文件都非常大。
⒊大部分文件的更新是通过添加新数据完成的，而不是改变已存在的数据。
4.工作量主要由两种读操作构成：对大量数据的流方式的读操作和对少量数据的随机方式的读操作。
5.工作量还包含许多对大量数据进行的、连续的、向文件添加数据的写操作。
⒍系统必须高效地实现定义完好的大量客户同时向同一个文件的添加操作的语义。
7.高可持续带宽比低延迟更重要。
（百度百科）
MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算，MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性的返回它所完成的工作和最新的状态。
MapReduce有许多功能：
1.数据划分和计算任务调度
2.数据/代码互定位
3.系统优化
4.出错检测和恢复