大数据：Oracle&MySql存储机制是否适合做数据仓库

最新推荐文章于 2024-11-04 19:30:00 发布

云淡风清orz

最新推荐文章于 2024-11-04 19:30:00 发布

阅读量1.3k

点赞数 1

分类专栏：大数据体系

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40904071/article/details/88071796

版权

大数据体系专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这次主要讨论Oracle & MySQL底层的存储机制，以及是否适合做数据仓库。

Oracle和Mysql的存储单位都极为相似，他们的最小单位分别是block/page，这个的大小是可以配置的。每一个block/page可以存储一条或多条数据。并且也是一次I/O读的最小单位。

Oracle存储单位：
Tablespace/Segments/Extents/blocks
MySql存储单位：
Tablespace/Segments/Extents/pages

Oracle/Mysql的存储机制有：堆存/索引/聚簇

堆存可以理解为存储引擎会计算数据的hash值，然后将数据随机分布到block/page。数据无序。读写快。
索引最简单的例子就是B-Tree，将数据重新编排顺序。数据有序。读写慢。
聚簇更像是一个中庸的方式。数据有序，读写适中。

我经历过真实案例，上百T的数据仓库用传统数据库搭建，并且性能优异。就是因为大量使用聚簇实现的。

聚簇能够实现快速部分扫描，但也不需要像索引耗费大量性能。在数据仓库中很多历史数据不会经常更新，也不会打乱数据的顺序。由于数据都是有序的，一个好的建模就能让大的join操作，走上嵌套循环，部分扫描。

聚簇也有缺点，也是在考虑是否合适时必须考虑的因素：大量的更新（insert/delete/update）会打乱数据块的连续性。这个时候需要考虑磁盘整理。

举个例子Oracle遇到高水位线（HWM）时如何做磁盘整理：
alter table table_name enable movement;
alter table table_name shrink space;

所以，大家在遇到T级别的数据时，不一定需要使用Hadoop体系，或许可以考虑传统数据库的聚簇，也能高效实现数据的ETL。## 这次主要讨论Oracle & MySQL底层的存储机制，以及是否适合做数据仓库。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

>