Hadoop权威指南-笔记1

最新推荐文章于 2024-07-06 00:00:00 发布

chao_ggggg

最新推荐文章于 2024-07-06 00:00:00 发布

阅读量290

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/chao_ggggg/article/details/61918320

版权

5 篇文章 0 订阅

订阅专栏

Hadoop 和关系型数据库的比较

问题：为什么不用基于很多磁盘的数据库来做大型数据存储和数据分析？在有关系型数据库存在的前提下，hadoop存在的意义是什么？

磁盘设备的发展趋势，seek的速度没有 transfer的速度提升的快，seek对应着磁盘操作的时延，transfer对应着磁盘带宽

这就是说，如果seek的是对于数据集的小部分数据，基于B-Tree的关系型数据库可以work well。但是当seek总是对于数据集中的大部分数据时，RDBMS的效率就会低于hadoop的MapReduce（sort/merge）.

MapReduce等其他Hadoop处理模型，随着数据的size线性scale。数据是分布式存储的，方法是并行的。如果intput数据量变成二倍，一个job就会慢两倍，但是如果同时集群规模也扩成两倍，那么job计算时间跟以前一样。。。这不废话么。