在数据库查询中,group by语句经常使用,而这个语句的使用是最耗性能的,按常理,
我们生活中要这样做也很麻烦,有两种情形:
1、有索引的情况
2、无索引的情况
对于第一种情况,如果在生活中要做这样的事情,很恼火,我们正常的想法是,先把所有的
按高矮顺序来排序,最后是一组的就直接挑出来了,但 怎样实现这个排序呢?
根据上一篇文件排序filesort的规则,我们可以这样,先让局部有序,然后在慢慢扩散
来排列整个数据,方法是:选择适当的大小的排序块缓存大小,每次取出块大小数据,利用
快速排序功能对该块排序,然后存入临时文件,然后利用归并排序的思想,将各个块之间进行
排序,最终达到排序完成。
对于上面的描述,虽然排序使用了非常快的排序算法快排和归并排序,但这个涉及的临时
文件的读取操作,浪费大量的I/O,性能上是危害很大的,因此,掌握好在使用group by的语句的
使用,尽量使用到索引,免除了排序的操作,group by的速度就上来了,并且也不会消耗太多
内存大小,下面叙述一下group by使用索引的原理
一、 group by 使用索引原理
1、group by 使用排序来读取数据,所以只能用btree索引,不能使用在hash索引的算法中
因为hash索引是一种类似键值对的快速访问方式