收集了一些distinct性能相关的文章 希望有用

标签: distinct 性能
16人阅读 评论(0) 收藏 举报
分类:

原文出处:

https://blog.csdn.net/u010745238/article/details/42846897

http://blog.sina.com.cn/s/blog_5017ea6c0101e3c4.html

https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html


尽量不要使用 distinct

大多数情况下,Distinct函数都会导致对最终结果集完成一次排序,因此,这就成为成本最昂贵的排序之一。Distinct一直是SQL语言中成本最高的函数之一。不过,对于DB2V9,优化工具会尽量利用索引来消除为确定唯一性所带来的排序,其方法类似于目前用GroupBy语句完成优化时的做法。不过,实际上不必在SQL中使用Distinct,完全可以使用其他方式重写查询来得到同样的结果,这样做往往更为高效。开发人员现在都很喜欢用Distinct,很多人在所有语句上都会加上Distinct来确保不出现重复。不过这种代码的效率很低。在对应用调优时,我首先要做的事情之一就是审查源代码,找出所有包含Distinct的语句,了解这些查询是否确实会得到重复的结果,查看这个Distinct是否会导致一个排序,然后重写这些语句。通过对每晚批量作业的全面分析,就能很容易地大幅减少批量处理周期时间。不过要记住,如果查询中包含Distinct,只要不会因此导致执行一个排序,这个查询可能也很高效。

要从结果集消除重复,可以尝试下面的做法:

使用GroupBy(V9之前),这会利用关联索引来消除为确定唯一性所导致的排序。

使用一个In或Exists子查询重写查询。如果某个表可能导致重复(由于是一对多关系),但是这个表中并不包含结果集将返回的数据,这种情况下这种方法就很适用。

例如,给定当前参与项目的一组员工。其中很多员工可能同时参加了多个项目,不过我们希望他们只出现一次。以下查询:

SELECTDISTINCTE.EMPNO,E.LASTNAME

FROMEMPE,

EMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO

可以重写为:

SELECTE.EMPNO,E.LASTNAME

FROMEMPE,

EMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO

GROUPBYE.EMPNO,E.LASTNAME

也可以重写为:

SELECTE.EMPNO,E.LASTNAME

FROMEMPE

WHEREEXISTS

(SELECT1

FROMEMPPROJACTEP

WHEREE.EMPNO=EP.EMPNO)

还可以重写为:

SELECTE.EMPNO,E.LASTNAME

FROMEMPE

WHEREE.EMPNOIN

(SELECTEP.EMPNO

FROMEMPPROJACTEP)




用EXISTS替换DISTINCT ,提高效率

用EXISTS替换DISTINCT: 当提交一个包含一对多表信息(比如部门表和雇员表)的查询时,避免在SELECT子句中使用DISTINCT. 一般可以考虑用EXIST替换, EXISTS 使查询更为迅速,因为RDBMS核心模块将在子查询的条件一旦满足后,立刻返回结果.尽量使用exists而不是distinct,因为distinct在禁止重复行之前要排序检索到的行。

例子:

(低效):

SELECT DISTINCT DEPT_NO,DEPT_NAME FROM DEPT D , EMP E WHERE D.DEPT_NO = E.DEPT_NO

(高效):

SELECT DEPT_NO,DEPT_NAME FROM DEPT D WHERE EXISTS ( SELECT ‘X' FROM EMP E WHERE E.DEPT_NO = D.DEPT_NO);

用EXISTS的确可以替代DISTINCT,不过以上方案仅适合DEPT_NO为唯一主键的情况。 如果要去掉重复记录,需参照以下方法:

SELECT * FROM EMP WHERE DEPT_NO EXISTS(select Max(DEPT_NO) FROM DEPT D , EMP E WHERE E.DEPT_NO = D.DEPT_NO GROUP BY D.DEPT_NO)

 

得到重复记录数

SELECT * FROM EMP WHERE DEPT_NO NOT EXISTS(select Max(DEPT_NO) FROM DEPT D , EMP E WHERE E.DEPT_NO = D.DEPT_NO GROUP BY D.DEPT_NO)





MySQL中distinct和group by性能比较

之前看了网上的一些测试,感觉不是很准确,今天亲自测试了一番。得出了结论(仅在个人计算机上测试,可能不全面,仅供参考)

测试过程:

准备一张测试表 

1    CREATE TABLE `test_test` (
2      `id` int(11) NOT NULL auto_increment,
3      `num` int(11) NOT NULL default '0',
4      PRIMARY KEY  (`id`)
5     ) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

建个储存过程向表中插入10W条数据 

复制代码
01    create procedure p_test(pa int(11)) 
02     begin 
03       
04      declare max_num int(11) default 100000; 
05      declare i int default 0; 
06      declare rand_num int; 
07       
08      select count(id) into max_num from test_test; 
09       
10      while i < pa do 
11              if max_num < 100000 then 
12                      select cast(rand()*100 as unsigned) into rand_num; 
13                      insert into test_test(num)values(rand_num); 
14              end if; 
15              set i = i +1; 
16      end while; 
17     end
复制代码

调用存储过程插入数据

1    call p_test(100000);

开始测试:(不加索引)

复制代码
01    select distinct num from test_test; 
02    select num from test_test group by num; 
03     
04    [SQL] select distinct num from test_test;
05    受影响的行: 0
06    时间: 0.078ms
07     
08    [SQL]  
09    select num from test_test group by num;
10    受影响的行: 0
11    时间: 0.031ms
复制代码

二、num字段上创建索引

 

1    ALTER TABLE `test_test` ADD INDEX `num_index` (`num`) ;

 

再次查询

复制代码
01    select distinct num from test_test; 
02    select num from test_test group by num; 
03    [SQL] select distinct num from test_test;
04    受影响的行: 0
05    时间: 0.000ms
06     
07    [SQL]  
08    select num from test_test group by num;
09    受影响的行: 0
10    时间: 0.000ms
复制代码

这时候我们发现时间太小了 0.000秒都无法精确了。

 

我们转到命令行下 测试

复制代码
01    mysql> set profiling=1;
02    mysql> select distinct(num) from test_test; 
03    mysql> select num from test_test group by num;
04    mysql> show profiles;
05    +----------+------------+----------------------------------------+
06    | Query_ID | Duration   | Query                                  |
07    +----------+------------+----------------------------------------+
08    |        1 | 0.00072550 | select distinct(num) from test_test    |
09    |        2 | 0.00071650 | select num from test_test group by num |
10    +----------+------------+----------------------------------------+
复制代码

 

加了索引之后 distinct 比没加索引的 distinct 快了 107倍。

 

加了索引之后 group by 比没加索引的 group by 快了 43倍。

 

再来对比 :distinct  和 group by

 

不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by

 


查看评论

网页模板

  • 2011年06月14日 19:53
  • 9.6MB
  • 下载

ASP站长学习代码的一本精华资料

  • 2007年04月03日 20:59
  • 167KB
  • 下载

NYOJ--456--邮票分你一半

邮票分你一半 时间限制:1000 ms  |  内存限制:65535 KB 难度:3 描述     小珂最近收集了些邮票,他想把其中的一些给他的好朋友小明。每张邮票上都有分值...
  • gui951753
  • gui951753
  • 2015-10-25 16:29:29
  • 333

农行笔试资料整理.rar

  • 2010年03月06日 19:20
  • 246KB
  • 下载

软考英语文章

  • 2007年05月12日 11:45
  • 40KB
  • 下载

邮票分你一半 时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述 小珂最近收集了些邮票,他想把其中的一些给他的好朋友小明。每张邮票上都有分值,他们想把这些邮票分成两

#include #include using namespace std; int val[500001];  int main() { int n,m,i,j,sum; int a[...
  • wang_hao_16
  • wang_hao_16
  • 2017-07-13 21:09:44
  • 186

oracle 精彩文章.rar

  • 2009年01月15日 09:45
  • 160KB
  • 下载

AD封装库收集了网上众多库,希望有用

  • 2015年11月27日 09:27
  • 16.73MB
  • 下载

字符串模式匹配算法[集合][精华]

  • 2009年11月09日 23:49
  • 3.65MB
  • 下载

收集了一些python的文章

转载自:http://blog.csdn.net/xyw_blog/article/details/9128777 newthreading - safer concurrency for Pyth...
  • u013524655
  • u013524655
  • 2014-11-22 17:10:35
  • 1022
    个人资料
    持之以恒
    等级:
    访问量: 4万+
    积分: 802
    排名: 6万+
    文章存档
    最新评论