基数与表的总行数的比值就是选择性
当我们学习了基数后,可以得出一个大概的结论:基数比较小时,查询不走索引,基数比较大时,查询走索引。但是这样太笼统了,什么情况下基数算大,什么情况下算小呢。比如一个字段的基数是10000,应该比较大了吧,但是这张表本身有100亿条数据。相形之下,就不那么大了。
所以单独看列的基数就没有什么意义了,这就引入了列的选择性。当一个列的选择性大于20%时,说明这个列的数据分布就比较均衡了。这时如果在where子句中对这个字段做条件筛选,就应该创建索引。当然,如果表的数据量比较小的话,就不需要,大表才会考虑优化。