详解MySQL分组查询Group By实现原理(1)

由于 GROUP BY 实际上也同样会进行排序操作,而且与 ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUP BY 的实现过程中,与 ORDER BY 一样也可以利用到索引。

  在 MySQL 中,GROUP BY 的实现同样有多种(三种)方式,其中有两种方式会利用现有的索引信息来完成 GROUP BY,另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析。

  1.使用松散(Loose)索引扫描实现 GROUP BY

  何谓松散索引扫描实现 GROUP BY 呢?实际上就是当 MySQL 完全利用索引扫描来实现 GROUP BY 的时候,并不需要扫描所有满足条件的索引键即可完成操作得出结果。

  下面我们通过一个示例来描述松散索引扫描实现 GROUP BY,在示例之前我们需要首先调整一下 group_message 表的索引,将 gmt_create 字段添加到 group_id 和 user_id 字段的索引中:

1 sky @localhost : example 08 : 49 : 45 > create index idx_gid_uid_gc
2
3    -> on group_message(group_id, user_id ,gmt_create);
4
5   Query OK, rows affected ( 0.03 sec)
6
7   Records: 96 Duplicates: 0 Warnings: 0
8
9   sky @localhost : example 09 : 07 : 30 > drop index idx_group_message_gid_uid
10
11    -> on group_message;
12
13   Query OK, 96 rows affected ( 0.02 sec)
14
15   Records: 96 Duplicates: 0 Warnings: 0

  然后再看如下 Query 的执行计划:

1   sky @localhost : example 09 : 26 : 15 > EXPLAIN
2
3    -> SELECT user_id , max (gmt_create)
4
5    -> FROM group_message
6
7    -> WHERE group_id < 10
8
9    -> GROUP BY group_id, user_id \G
10
11    *************************** 1 . row ***************************
12
13   id: 1
14
15   select_type: SIMPLE
16
17    table : group_message
18
19   type: range
20
21   possible_keys: idx_gid_uid_gc
22
23    key : idx_gid_uid_gc
24
25   key_len: 8
26
27   ref: NULL
28
29   rows: 4
30
31   Extra: Using where ; Using index for group - by
32
33    1 row in set ( 0.00 sec)

  我们看到在执行计划的 Extra 信息中有信息显示“Using index for group-by”,实际上这就是告诉我们,MySQL Query Optimizer 通过使用松散索引扫描来实现了我们所需要的 GROUP BY 操作。

  下面这张图片描绘了扫描过程的大概实现:

  要利用到松散索引扫描实现 GROUP BY,需要至少满足以下几个条件:

  ◆GROUP BY 条件字段必须在同一个索引中最前面的连续位置;

  ◆在使用GROUP BY 的同时,只能使用 MAX 和 MIN 这两个聚合函数;

  ◆如果引用到了该索引中 GROUP BY 条件之外的字段条件的时候,必须以常量形式存在;

  为什么松散索引扫描的效率会很高?

  因为在没有WHERE子句,也就是必须经过全索引扫描的时候, 松散索引扫描需要读取的键值数量与分组的组数量一样多,也就是说比实际存在的键值数目要少很多。而在WHERE子句包含范围判断式或者等值表达式的时候, 松散索引扫描查找满足范围条件的每个组的第1个关键字,并且再次读取尽可能最少数量的关键字。


  2.使用紧凑(Tight)索引扫描实现 GROUP BY

  紧凑索引扫描实现 GROUP BY 和松散索引扫描的区别主要在于他需要在扫描索引的时候,读取所有满足条件的索引键,然后再根据读取恶的数据来完成 GROUP BY 操作得到相应结果。

1  sky @localhost : example 08 : 55 : 14 > EXPLAIN
2
3    -> SELECT max (gmt_create)
4
5    -> FROM group_message
6
7    -> WHERE group_id = 2
8
9    -> GROUP BY user_id \G
10
11    *************************** 1 . row ***************************
12
13   id: 1
14
15   select_type: SIMPLE
16
17    table : group_message
18
19   type: ref
20
21   possible_keys: idx_group_message_gid_uid,idx_gid_uid_gc
22
23    key : idx_gid_uid_gc
24
25   key_len: 4
26
27   ref: const
28
29   rows: 4
30
31   Extra: Using where ; Using index
32
33    1 row in set ( 0.01 sec)

  这时候的执行计划的 Extra 信息中已经没有“Using index for group-by”了,但并不是说 MySQL 的 GROUP BY 操作并不是通过索引完成的,只不过是需要访问 WHERE 条件所限定的所有索引键信息之后才能得出结果。这就是通过紧凑索引扫描来实现 GROUP BY 的执行计划输出信息。

  下面这张图片展示了大概的整个执行过程:

  在 MySQL 中,MySQL Query Optimizer 首先会选择尝试通过松散索引扫描来实现 GROUP BY 操作,当发现某些情况无法满足松散索引扫描实现 GROUP BY 的要求之后,才会尝试通过紧凑索引扫描来实现。

  当 GROUP BY 条件字段并不连续或者不是索引前缀部分的时候,MySQL Query Optimizer 无法使用松散索引扫描,设置无法直接通过索引完成 GROUP BY 操作,因为缺失的索引键信息无法得到。但是,如果 Query 语句中存在一个常量值来引用缺失的索引键,则可以使用紧凑索引扫描完成 GROUP BY 操作,因为常量填充了搜索关键字中的“差距”,可以形成完整的索引前缀。这些索引前缀可以用于索引查找。而如果需要排序GROUP BY结果,并且能够形成索引前缀的搜索关键字,MySQL还可以避免额外的排序操作,因为使用有顺序的索引的前缀进行搜索已经按顺序检索到了所有关键字。

 3.使用临时表实现 GROUP BY

  MySQL 在进行 GROUP BY 操作的时候要想利用所有,必须满足 GROUP BY 的字段必须同时存放于同一个索引中,且该索引是一个有序索引(如 Hash 索引就不能满足要求)。而且,并不只是如此,是否能够利用索引来实现 GROUP BY 还与使用的聚合函数也有关系。

  前面两种 GROUP BY 的实现方式都是在有可以利用的索引的时候使用的,当 MySQL Query Optimizer 无法找到合适的索引可以利用的时候,就不得不先读取需要的数据,然后通过临时表来完成 GROUP BY 操作。

1   sky @localhost : example 09 : 02 : 40 > EXPLAIN
2
3    -> SELECT max (gmt_create)
4
5    -> FROM group_message
6
7    -> WHERE group_id > 1 and group_id < 10
8
9    -> GROUP BY user_id \G
10
11    *************************** 1 . row ***************************
12
13   id: 1
14
15   select_type: SIMPLE
16
17    table : group_message
18
19   type: range
20
21   possible_keys: idx_group_message_gid_uid,idx_gid_uid_gc
22
23    key : idx_gid_uid_gc
24
25   key_len: 4
26
27   ref: NULL
28
29   rows: 32
30
31   Extra: Using where ; Using index ; Using temporary ; Using filesort

  这次的执行计划非常明显的告诉我们 MySQL 通过索引找到了我们需要的数据,然后创建了临时表,又进行了排序操作,才得到我们需要的 GROUP BY 结果。整个执行过程大概如下图所展示:

  当 MySQL Query Optimizer 发现仅仅通过索引扫描并不能直接得到 GROUP BY 的结果之后,他就不得不选择通过使用临时表然后再排序的方式来实现 GROUP BY了。

  在这样示例中即是这样的情况。 group_id 并不是一个常量条件,而是一个范围,而且 GROUP BY 字段为 user_id。所以 MySQL 无法根据索引的顺序来帮助 GROUP BY 的实现,只能先通过索引范围扫描得到需要的数据,然后将数据存入临时表,然后再进行排序和分组操作来完成 GROUP BY。


  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MySQL中,GROUP BY关键字用于根据指定的列或表达式对查询结果进行分组分组条件可以是一个或多个列,也可以是一个表达式。通过使用GROUP BY关键字,查询结果将按照指定的分组条件进行分组,并只显示每个分组的第一条记录。 举个例子,假设我们有一个employee表,其中包含员工的信息,包括d_id(部门ID)和sex(性别)两列。如果我们想要根据部门ID和性别对员工进行分组,我们可以使用以下的SELECT语句: SELECT * FROM employee GROUP BY d_id,sex; 这样查询的结果将按照部门ID和性别进行分组,并只显示每个分组的第一条记录。 需要注意的是,如果GROUP BY关键字不与聚合函数一起使用,那么查询结果就是字段取值的分组情况。字段中取值相同的记录会被视为一组,但是只会显示该组的第一条记录。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [MySQL分组group by详解](https://blog.csdn.net/m0_37583655/article/details/113136199)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [MySQL对数据表进行分组查询GROUP BY)](https://blog.csdn.net/qq_21794887/article/details/94639378)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值