这次主要讨论Oracle & MySQL底层的存储机制,以及是否适合做数据仓库。
Oracle和Mysql的存储单位都极为相似,他们的最小单位分别是block/page,这个的大小是可以配置的。每一个block/page可以存储一条或多条数据。并且也是一次I/O读的最小单位。
Oracle存储单位:
Tablespace/Segments/Extents/blocks
MySql存储单位:
Tablespace/Segments/Extents/pages
Oracle/Mysql的存储机制有:堆存/索引/聚簇
堆存可以理解为存储引擎会计算数据的hash值,然后将数据随机分布到block/page。数据无序。读写快。
索引最简单的例子就是B-Tree,将数据重新编排顺序。数据有序。读写慢。
聚簇更像是一个中庸的方式。数据有序,读写适中。
我经历过真实案例,上百T的数据仓库用传统数据库搭建,并且性能优异。就是因为大量使用聚簇实现的。
聚簇能够实现快速部分扫描,但也不需要像索引耗费大量性能。在数据仓库中很多历史数据不会经常更新,也不会打乱数据的顺序。由于数据都是有序的,一个好的建模就能让大的join操作,走上嵌套循环,部分扫描。
聚簇也有缺点,也是在考虑是否合适时必须考虑的因素:大量的更新(insert/delete/update)会打乱数据块的连续性。这个时候需要考虑磁盘整理。
举个例子Oracle遇到高水位线(HWM)时如何做磁盘整理:
alter table table_name enable movement;
alter table table_name shrink space;
所以,大家在遇到T级别的数据时,不一定需要使用Hadoop体系,或许可以考虑传统数据库的聚簇,也能高效实现数据的ETL。## 这次主要讨论Oracle & MySQL底层的存储机制,以及是否适合做数据仓库。