如何优化操作大数据量数据库——改善SQL语句(转)

转载 2011年01月07日 16:45:00

 

很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。比如:

 

select * from table1 where name='zhangsan' and tID > 10000

 

和执行:

 

select * from table1 where tID > 10000 and name='zhangsan'

 

一些人不知道以上两条语句的执行效率是否一样,因为如果简单的从语句先后上看,这两个语句的确是不一样,如果tID是一个聚合索引,那么后一句仅仅从表的条以后的记录中查找就行了;而前一句则要先从全表中查找看有几个name='zhangsan'的,而后再根据限制条件条件tID> 10000来提出查询结果。

 

事实上,这样的担心是不必要的。SQL SERVER中有一个查询分析优化器,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。

 

虽然查询优化器可以根据where子句自动的进行查询优化,但大家仍然有必要了解一下查询优化器的工作原理,如非这样,有时查询优化器就会不按照您的本意进行快速查询。

 

在查询分析阶段,查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数(SARG),那么就称之为可优化的,并且可以利用索引快速获得所需数据。

 

SARG的定义:用于限制搜索的一个操作,因为它通常是指一个特定的匹配,一个值得范围内的匹配或者两个以上条件的AND连接。形式如下:

 

列名操作符<常数或变量>

 

 

<常数或变量> 操作符列名

 

列名可以出现在操作符的一边,而常数或变量出现在操作符的另一边。如:

 

Name=张三

 

价格>5000

 

5000<价格

 

Name=张三and 价格>5000

 

如果一个表达式不能满足SARG的形式,那它就无法限制搜索的范围了,也就是SQL SERVER必须对每一行都判断它是否满足Where子句中的所有条件。所以一个索引对于不满足SARG形式的表达式来说是无用的。

 

介绍完SARG后,我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验:

 

1Like语句是否属于SARG取决于所使用的通配符的类型

 

如:name like%,这就属于SARG

 

而:name like%,就不属于SARG

 

原因是通配符%在字符串的开通使得索引无法使用。

 

2or 会引起全表扫描

 

Name=张三and 价格>5000 符号SARG,而:Name=张三or 价格>5000 则不符合SARG。使用or会引起全表扫描。

 

3、非操作符、函数引起的不满足SARG形式的语句

 

不满足SARG形式的语句最典型的情况就是包括非操作符的语句,如:NOT!=<>!<!>NOT EXISTSNOT INNOT LIKE等,另外还有函数。下面就是几个不满足SARG形式的例子:

 

ABS(价格)<5000

 

Name like%

 

有些表达式,如:

 

Where 价格*2>5000

 

SQL SERVER也会认为是SARGSQL SERVER会将此式转化为:

 

Where 价格>2500/2

 

但我们不推荐这样使用,因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。

 

4IN 的作用相当与OR

 

语句:

 

Select * from table1 where tid in (2,3)

 

 

Select * from table1 where tid=2 or tid=3

 

是一样的,都会引起全表扫描,如果tid上有索引,其索引也会失效。

 

5、尽量少用NOT

 

6exists in 的执行效率是一样的

 

很多资料上都显示说,exists要比in的执行效率要高,同时应尽可能的用not exists来代替not in。但事实上,我试验了一下,发现二者无论是前面带不带not,二者之间的执行效率都是一样的。因为涉及子查询,我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVERstatistics I/O状态打开。

 

()select title,price from titles where title_id in (select title_id from sales where qty>30)

 

该句的执行结果为:

 

'sales'。扫描计数18,逻辑读56 次,物理读0 次,预读0 次。

 

'titles'。扫描计数1,逻辑读2 次,物理读0 次,预读0 次。

 

()select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)

 

第二句的执行结果为:

 

'sales'。扫描计数18,逻辑读56 次,物理读0 次,预读0 次。

 

'titles'。扫描计数1,逻辑读2 次,物理读0 次,预读0 次。

 

我们从此可以看到用exists和用in的执行效率是一样的。

 

7、用函数charindex()和前面加通配符%LIKE执行效率一样

 

前面,我们谈到,如果在LIKE前面加上通配符%,那么将会引起全表扫描,所以其执行效率是低下的。但有的资料介绍说,用函数charindex()来代替LIKE速度会有大的提升,经我试验,发现这种说明也是错误的:

 

select gid,title,fariqi,reader from tgongwen where charindex('刑侦支队',reader)>0 and fariqi>'2004-5-5'

 

用时:秒,另外:扫描计数4,逻辑读7155 次,物理读0 次,预读0 次。

 

select gid,title,fariqi,reader from tgongwen where reader like '%' + '刑侦支队' + '%' and fariqi>'2004-5-5'

 

用时:秒,另外:扫描计数4,逻辑读7155 次,物理读0 次,预读0 次。

 

8union并不绝对比or的执行效率高

 

我们前面已经谈到了在where子句中使用or会引起全表扫描,一般的,我所见过的资料都是推荐这里用union来代替or。事实证明,这种说法对于大部分都是适用的。

 

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or gid>9990000

 

用时:秒。扫描计数1,逻辑读404008 次,物理读283 次,预读392163 次。

 

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

 

union

 

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

 

用时:秒。扫描计数8,逻辑读67489 次,物理读216 次,预读7499 次。

 

看来,用union在通常情况下比用or的效率要高的多。

 

但经过试验,笔者发现如果or两边的查询列是一样的话,那么用union则反倒和用or的执行速度差很多,虽然这里union扫描的是索引,而or扫描的是全表。

 

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16' or fariqi='2004-2-5'

 

用时:毫秒。扫描计数2,逻辑读14726 次,物理读1 次,预读7176 次。

 

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-9-16'

 

union

 

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi='2004-2-5'

 

用时:毫秒。扫描计数8,逻辑读14806 次,物理读108 次,预读1144 次。

 

9、字段提取要按照需多少、提多少的原则,避免select *

 

我们来做一个试验:

 

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

 

用时:毫秒

 

select top 10000 gid,fariqi,title from tgongwen order by gid desc

 

用时:毫秒

 

select top 10000 gid,fariqi from tgongwen order by gid desc

 

用时:毫秒

 

由此看来,我们每少提取一个字段,数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。

 

10count(*)不比count(字段)

 

某些资料上说:用*会统计所有列,显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看:

 

select count(*) from Tgongwen

 

用时:毫秒

 

select count(gid) from Tgongwen

 

用时:毫秒

 

select count(fariqi) from Tgongwen

 

用时:毫秒

 

select count(title) from Tgongwen

 

用时:毫秒

 

从以上可以看出,如果用count(*)和用count(主键)的速度是相当的,而count(*)却比其他任何除主键以外的字段汇总速度要快,而且字段越长,汇总的速度就越慢。我想,如果用count(*)SQL SERVER可能会自动查找最小字段来汇总的。当然,如果您直接写count(主键)将会来的更直接些。

 

11order by按聚集索引列排序效率最高

 

我们来看:(gid是主键,fariqi是聚合索引列)

 

select top 10000 gid,fariqi,reader,title from tgongwen

 

用时:毫秒。扫描计数1,逻辑读289 次,物理读1 次,预读1527 次。

 

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

 

用时:毫秒。扫描计数1,逻辑读41956 次,物理读0 次,预读1287 次。

 

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

 

用时:毫秒。扫描计数1,逻辑读55350 次,物理读10 次,预读775 次。

 

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

 

用时:毫秒。扫描计数1,逻辑读290 次,物理读0 次,预读0 次。

 

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

 

用时:毫秒。扫描计数1,逻辑读289 次,物理读0 次,预读0 次。

 

从以上我们可以看出,不排序的速度以及逻辑读次数都是和order by 聚集索引列的速度是相当的,但这些都比order by 非聚集索引列的查询速度是快得多的。

 

同时,按照某个字段进行排序的时候,无论是正序还是倒序,速度是基本相当的。

 

12、高效的TOP

 

事实上,在查询和提取超大容量的数据集时,影响数据库响应时间的最大因素不是数据查找,而是物理的I/0操作。如:

 

select top 10 * from (

 

select top 10000 gid,fariqi,title from tgongwen

 

where neibuyonghu='办公室'

 

order by gid desc) as a

 

order by gid asc

 

这条语句,从理论上讲,整条语句的执行时间应该比子句的执行时间长,但事实相反。因为,子句执行后返回的是条记录,而整条语句仅返回条语句,所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用,发现TOP确实很好用,效率也很高。但这个词在另外一个大型数据库ORACLE中却没有,这不能说不是一个遗憾,虽然在ORACLE中可以用其他方法(如:rownumber)来解决。在以后的关于实现千万级数据的分页显示存储过程的讨论中,我们就将用到TOP这个关键词。

 

到此为止,我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。当然,我们介绍的这些方法都是方法,在实践中,我们还要考虑各种因素,如:网络性能、服务器的性能、操作系统的性能,甚至网卡、交换机等。

 ----------------------------------------------------------------------------------------------------------------------------------------------------

 

原帖网址:http://www.cnblogs.com/leilei/articles/1152502.html

 

相关文章推荐

MySQL大数据量分页SQL语句优化

分页程序原理很简单,这里就不多说了,本篇文章主要说的是在数据表记录量比较大的情况下,如何将分页SQL做到更优化,让MySQL执行的更快的方法。 一般的情况下,我们的分页SQL语句是这样的: ...

MySQL大数据量分页SQL语句优化

分页程序原理很简单,这里就不多说了,本篇文章主要说的是在数据表记录量比较大的情况下,如何将分页SQL做到更优化,让MySQL执行的更快的方法。 一般的情况下,我们的分页SQL语句是这样的: ...

大数据量下的SQL Server数据库自身优化

原文: http://www.d1net.com/bigdata/news/284983.html 1.1:增加次数据文件          从SQL SERVER 2005开始,数据库不...

大数据量高并发的数据库优化与sql优化

大数据量高并发的数据库优化与sql优化 博客分类:  Oracle 大数据量高并发的数据库优化与sql优化 Java代码   大数据量高并发的数据库优化      一、数据库结构的设...

大数据量高并发的数据库优化与sql优化

Java代码   大数据量高并发的数据库优化      一、数据库结构的设计             ...

Oracle数据库中大数据量查询优化问题--分区表的操作方法

Oracle数据库中大数据量查询优化问题--分区表的操作方法Oracle数据库中分区表的操作方法  摘要:在大量业务数据处理的项目中,可以考虑使用分区表来提高应用系统的性能并方便数据管理,本文详细介绍...
  • rise51
  • rise51
  • 2011-03-27 20:33
  • 1692

Oracle数据库中大数据量查询优化问题 -- 分区表的操作方法

Oracle数据库中分区表的操作方法    摘要:在大量业务数据处理的项目中,可以考虑使用分区表来提高应用系统的性能并方便数据管理,本文详细介绍了分区表的使用。     在大型的企业应用或...

如何优化操作大数据量数据库(建立索引)

转载于:http://www.cnblogs.com/leilei/articles/1152499.html首先,为了建立一个测试环境,我们来往数据库中添加1000万条数据:declare @i i...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)