通过统计信息,代价估算系统就可以了解一个表有多少行数据、用了多少个数据页面、某个值出现的频率等,然后根据这些信息计算出一个约束条件能过滤掉多少数据,这种约束条件过滤出的数据占总数据量的比例称为“选择率”。
选择率 = 筛选之后所剩的元组数量 / 筛选之前的元组数量
选择率与随机 IO 的关系
获得了统计信息之后,在代价估算的时候就可以利用这些统计信息进行计算,比如可以借用统计信息计算约束条件的选择率:
--STUDENT 表中需要多些数据
DELETE FROM STUDENT;
INSERT INTO STUDENT SELECT GENERATE_SERIES(1,10000), LEFT(RANDOM()::TEXT, 10), 1;
ANALYZE STUDENT;
--选择率高,采用顺序扫描的方法获取数据
postgres=# EXPLAIN SELECT * FROM STUDENT WHERE sno > 2;
QUERY PLAN
-------------------------------------------------------------
Seq Scan on student (cost=0.00..224.00 rows=9999 width=10)
Filter: (sno > 2)
(2 rows)
--选择率低,采用索引扫描的方法获取数据
postgres=# EXPLAIN SELECT * FROM STUDENT WHERE sno < 2;
QUERY PLAN
-----------------------------------------------------------------------------
Index Scan using student_pkey on stude