MYSQL distinct 和group by 同时使用性能急剧下降

语句:select distinct a from A group by a

当记录数上万,执行时间将达到30秒左右。

修改为 select distinct a from (select a from A group by a),执行时长会在1秒以内。

对比两条SQL 语句执行记录,发现修改前Handler_read_rnd_next 数量高达1亿,修改后这条记录降低到7万左右。

Handler_read_rnd_next: 从数据节点读取下一条数据的次数 。

另外修改后,解释器中增加了Using temporary,使用了临时表进行distinct 操作。

为什么会出现这种情况呢?

按照网上说法,distinct 和group by 同时使用时,先group by ,再distinct 。这个过程中,group by 应该必然会产生临时表才对。

Mysql数据库group by原理详解_Mysql_脚本之家

explain select city ,count(*) as num from staff group by city;

我们一起来看下这个SQL的执行流程哈

  • 创建内存临时表,表里有两个字段city和num;
  • 全表扫描staff的记录,依次取出city = 'X'的记录。
  • 判断临时表中是否有为 city='X'的行,没有就插入一个记录 (X,1);
  • 如果临时表中有city='X'的行的行,就将x 这一行的num值加 1;
  • 遍历完成后,再根据字段city做排序,得到结果集返回给客户端。

distinct :会将全部内容存储到一个hash结构中,最后通过计算hash结构中的key的个数得到结果。典型的以空间换时间的方式。

group by:先将字段排序,一般使用sort,然后进行计数,典型的以时间换空间。

数据越是离散,distinct 需要消耗的空间越大,效率越低,group by 的空间优势就比较明显;数据越集中,distinct 效率则更高。

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MySQL中的DISTINCTGROUP BY都是用于去重的。 DISTINCT用于返回唯一的值,它会去除重复的行,但不会对数据进行分组。 GROUP BY用于将数据分组并对每个组进行聚合操作,它会将相同的值分为一组,并对每组进行聚合操作,如求和、平均值等。GROUP BY也可以用于去重,但它会对数据进行分组。 因此,如果只需要去重,可以使用DISTINCT;如果需要对数据进行分组并进行聚合操作,可以使用GROUP BY。 ### 回答2: MySQL 中的 distinctgroup by 都是用来展现数据聚合结果的方法,它们都可以去重并对相同的数据进行分组,但是实现方式略有不同。 distinct 是用来去重的,它会返回唯一的连续的记录,如果存在多列数据,它将所有指定列的数据看成一个整体来处理,去掉重复的记录,保留唯一的记录。distinct 可以在 select 语句加入任何一个表达式,并且根据这个表达式去重,如: SELECT DISTINCT column1, column2 FROM table1; group by 是将数据分组,并且计算这些分组数据的聚合函数(如 SUM、AVG、COUNT等)的结果。Group by 一般是配合聚合函数使用,对某一个或多个列进行统计,结果是按照所指定的字段分组,然后进行聚合计算。group by 中列的顺序以及列的选择会影响结果,因为他们都是规定了分组的基准条件,如: SELECT column1, COUNT(column2) FROM table1 GROUP BY column1; 另外,distinctgroup by 在处理数据上也有不同之处,distinct 对数据进行排序并去重,这个过程比较消耗性能,在处理大量数据时要考虑到性能的问题,而 group by 则是在内存中聚合数据,因此它的效率要比 distinct 高。另外,在使用 group by 时要注意选择合适的索引,以避免在大数据集上的性能问题。 总的来说,distinctgroup by 都是用来处理数据聚合的方法,它们都可以去重并对相同的数据进行分组。但是,在使用时应该根据实际情况选择合适的方式,避免因为数据量大或查询需求的不同而影响查询性能。 ### 回答3: MySQL中的DISTINCTGROUP BY都是查询语句中常用的操作符,但是它们的实现方式和作用是有所不同的。 一、DISTINCT DISTINCT是用来去重的操作符,它可以在SELECT语句中用来消除重复的结果行。它的语法如下: SELECT DISTINCT column1, column2, ... FROM table_name; 其中,column1,column2等是要去重的列,table_name是数据表名。DISTINCT会根据指定的列信息对查询结果进行去重处理,只返回不重复的记录。 例如,如果有一个名为Users的数据表,其中包含了许多相同的用户ID信息,我们可以使用DISTINCT来获取不同的用户ID列表,SQL语句如下: SELECT DISTINCT user_id FROM Users; DISTINCT同时也可以和ORDER BY一起使用,对结果进行排序,如下所示: SELECT DISTINCT user_id FROM Users ORDER BY user_id; 二、GROUP BY GROUP BY是聚合操作符,它可以将表中的数据按照某一列进行分组,并对组内的数据进行统计计算,得出每个组的统计结果。它的语法如下: SELECT column1, function(column2) FROM table_name WHERE condition GROUP BY column1; 其中,column1是要分组的列,function(column2)是用来计算每个组别的结果数据,table_name是数据表名,condition是查询条件。GROUP BY会将数据表中的数据按照指定的列值分组,计算每个组别的统计结果。 例如,如果要对数据表Orders中的订单按照客户ID进行分组,并且计算每个客户ID的订单总金额和最大订单金额,SQL语句如下: SELECT customer_id, SUM(order_amt), MAX(order_amt) FROM Orders GROUP BY customer_id; GROUP BY也可以和HAVING一起使用,对结果进行过滤筛选,如下所示: SELECT customer_id, SUM(order_amt), MAX(order_amt) FROM Orders GROUP BY customer_id HAVING SUM(order_amt) > 1000; 三、区别 DISTINCTGROUP BY都是用来对查询结果进行筛选的操作符,但它们的作用不同,具体区别如下: 1. DISTINCT的作用是去重,它在查询结果中消除重复的记录,返回不同的结果行。GROUP BY的作用是分组,它将数据按照分组列的值分类,并对每个组别进行计算,得到每个组别的统计结果。 2. DISTINCTGROUP BY可以对相同的列进行操作,但是DISTINCT只返回去重后的列值,而GROUP BY则返回分组后的每个组别的值。不同的是:GROUP BY是基于分组列进行操作,而DISTINCT则是基于整行数据进行去重操作。 3. DISTINCT只能用来针对一个或多个需要去重的列进行操作,而GROUP BY可以对多个列进行分组。在结果集中GROUP BY分组返回的列和聚合函数运算列是唯一的,而DISTINCT返回的结果列与SELECT查询的列是相同的。 4. DISTINCT执行效率比GROUP BY高,因为去重操作的复杂度比分组操作低。在MySQL中,GROUP BY操作需要创建临时表,内存消耗较大,速度相对较慢。如果只是简单的去重操作,建议使用DISTINCT;如果需要对查询结果进行分组统计,使用GROUP BY更为适合。 综上所述,DISTINCTGROUP BY的主要区别在于:DISTINCT只是简单的针对指定列进行去重,而GROUP BY则需要对指定列进行分组统计计算。在实际开发中,应该根据具体场景去选择使用哪个操作符。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值