对于任何Query,返回的数据都需要通过网络数据包传回给客户端,去除的Column越多,须要传输的数据量自然会越大,不论是从网络带宽方面考虑还是从网络传输的缓冲区来看,这都是一个浪费。
如果是需要排序的Query,其影响就更加大了。在MySQL中存在两种排序算法:
一种是在MySQL4.1之前的算法,实现方式是先将需要排序的字段和可以直接定位到相关行数据的指针信息取出,然后在设定的排序区(通过参数sort_buffer_size 设定)中进行排序,完成排序之后再次通过行指针信息取出所需的Column,也就是说这种算法须要访问两次数据。
第二种排序算法是从MySQL4.1版本开始使用的改进算法,一次性将所需的Column全部取出,在排序区排序后直接将数据返回给请求客户端。改进算法只须要访问一次数据,减少了大量的随机IO,极大地提高了排序Query语句的效率。
但是,这种改进后的排序算法一次性取出并缓存的数据比第一种算法要多很多,如果我们将不需要的Column也取出来,就会极大地浪费排序过程所需要的内存。在MySQL4.1之后的版本中,可以通过设置max_length_for_sort_data 参数来控制MySQL选择第一种排序算法还是第二种。当取出的所有字段总大小大于max_length_for_sort_data的设置时,MySQL会选择使用第一种排序算法,反之,则会选择第二种。为了尽可能地提高排序性能,我们自然更希望使用第二种排序算法。