从这一节课开始就进入了物理优化的部分。所谓物理优化就是通过计算代价的方式来对多种可能的方法进行筛选,优胜劣汰。那么什么是代价呢?代价就是一个执行计划在执行过程中所带来的消耗。既然是数据库,数据都保存在磁盘上,那么就免不了读取磁盘带来的消耗,这种消耗可以称为 IO 代价。在 SQL 语句中需要执行各种表之间做逻辑运算,看到“运算”两个字就很容易想到 CPU,因为 CPU 是中央处理单元,所以执行计划还要考虑 CPU 代价。由于分布式计划(或者并行执行计划)对数据进行了切分,导致在执行计划之间需要传递数据,因此还需要考虑通信代价。
那么问题来了,这些代价如何计算呢?当然可以采用最简单的“拍脑袋大法”,比如在路径选择的时候我们就喜欢记住这样的模糊的概念:通过建索引的方式可以提高查询速度。基于此,在打算提高查询性能的时候,一拍脑袋就在一个表上建上百个索引,美其名曰用空间换时间,除了更新和插入的速度慢一点,简直没毛病。
但优化器的代价模型不满足于这种含糊其辞式概念,需要做“精确”的计算,于是就需要如下几个方面的信息。
- 数据到底是什么情况?也就是说数据的分布情况,比如它占了多少个页面,有多少个元组,元组的宽度是多少&#