Hadoop权威指南-笔记1

Hadoop 和关系型数据库的比较

问题:为什么不用基于很多磁盘的数据库来做大型数据存储和数据分析?在有关系型数据库存在的前提下,hadoop存在的意义是什么?


一个事实

磁盘设备的发展趋势,seek的速度没有 transfer的速度提升的快,seek对应着磁盘操作的时延,transfer对应着磁盘带宽

这就是说,如果seek的是对于数据集的小部分数据,基于B-Tree的关系型数据库可以work well。但是当seek总是对于数据集中的大部分数据时,RDBMS的效率就会低于hadoop的MapReduce(sort/merge).

MapReduce等其他Hadoop处理模型,随着数据的size线性scale。数据是分布式存储的,方法是并行的。如果intput数据量变成二倍,一个job就会慢两倍,但是如果同时集群规模也扩成两倍,那么job计算时间跟以前一样。。。这不废话么。

两种系统比较

  1. RDBMS更适用于更新数据,查询部分数据。hadoop更适用于“一次写入,多次读取”的数据
  2. hadoop操作的是半结构化数据或者是非结构化数据,RDBMS操作的是结构化数据
  3. RDBMS通常可以在维持自身数据的完整性的同时,去掉冗余数据

RDBMS VS HADOOP

项目RDBMSMapReduce
data sizeGP
access交互式和批处理批处理
update读写多次一次写入,多次读取
transactionsACIDnone
structure
integrityhighlow
scaling非线性线性

目录

[TOC]来生成目录:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值