大数据:Oracle&MySql存储机制是否适合做数据仓库

这次主要讨论Oracle & MySQL底层的存储机制,以及是否适合做数据仓库。

Oracle和Mysql的存储单位都极为相似,他们的最小单位分别是block/page,这个的大小是可以配置的。每一个block/page可以存储一条或多条数据。并且也是一次I/O读的最小单位。

Oracle存储单位
Tablespace/Segments/Extents/blocks
MySql存储单位
Tablespace/Segments/Extents/pages

Oracle/Mysql的存储机制有:堆存/索引/聚簇

堆存可以理解为存储引擎会计算数据的hash值,然后将数据随机分布到block/page。数据无序。读写快
索引最简单的例子就是B-Tree,将数据重新编排顺序。数据有序。读写慢
聚簇更像是一个中庸的方式。数据有序,读写适中

我经历过真实案例,上百T的数据仓库用传统数据库搭建,并且性能优异。就是因为大量使用聚簇实现的。

聚簇能够实现快速部分扫描,但也不需要像索引耗费大量性能。在数据仓库中很多历史数据不会经常更新,也不会打乱数据的顺序。由于数据都是有序的,一个好的建模就能让大的join操作,走上嵌套循环,部分扫描。

聚簇也有缺点,也是在考虑是否合适时必须考虑的因素:大量的更新(insert/delete/update)会打乱数据块的连续性。这个时候需要考虑磁盘整理。

举个例子Oracle遇到高水位线(HWM)时如何做磁盘整理:
alter table table_name enable movement;
alter table table_name shrink space;

所以,大家在遇到T级别的数据时,不一定需要使用Hadoop体系,或许可以考虑传统数据库的聚簇,也能高效实现数据的ETL。## 这次主要讨论Oracle & MySQL底层的存储机制,以及是否适合做数据仓库。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值