海量数据处理分析

最新推荐文章于 2023-01-03 19:25:35 发布

qiruiduni

最新推荐文章于 2023-01-03 19:25:35 发布

阅读量712

点赞数

分类专栏： java 文章标签：海量数据分析优化

java 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

1. 海量数据处理分析（作者北京迈思奇科技有限公司戴子良）原文地址：

http://blog.csdn.net/DaiZiLiang/archive/2006/12/06/1432193.aspx

笔者在实际工作中，有幸接触到海量的数据处理问题，对其进行处理是一项艰巨而复杂的任务。原因有以

下几个方面：
一、数据量过大，数据中什么情况都可能存在。如果说有10条数据，那么大不了每条去逐一检查，人为处

理，如果有上百条数据，也可以考虑，如果数据上到千万级别，甚至过亿，那不是手工能解决的了，必须

通过工具或者程序进行处理，尤其海量的数据中，什么情况都可能存在，例如，数据中某处格式出了问题

，尤其在程序处理时，前面还能正常处理，突然到了某个地方问题出现了，程序终止了。
二、软硬件要求高，系统资源占用率高。对海量的数据进行处理，除了好的方法，最重要的就是合理使用

工具，合理分配系统资源。一般情况，如果处理的数据过TB级，小型机是要考虑的，普通的机子如果有好

的方法可以考虑，不过也必须加大CPU和内存，就象面对着千军万马，光有勇气没有一兵一卒是很难取胜

的。
三、要求很高的处理方法和技巧。这也是本文的写作目的所在，好的处理方法是一位工程师长期工作经验

的积累，也是个人的经验的总结。没有通用的处理方法，但有通用的原理和规则。
那么处理海量数据有哪些经验和技巧呢，我把我所知道的罗列一下，以供大家参考：
一、选用优秀的数据库工具
现在的数据库工具厂家比较多，对海量数据的处理对所使用的数据库工具要求比较高，一般使用Oracle或

者DB2，微软公司最近发布的SQL Server 2005性能也不错。另外在BI领域：数据库，数据仓库，多维数据

库，数据挖掘等相关工具也要进行选择，象好的ETL工具和好的OLAP工具都十分必要，例如Informatic，

Eassbase等。笔者在实际数据分析项目中，对每天6000万条的日志数据进行处理，使用SQL Server 2000

需要花费6小时，而使用SQL Server 2005则只需要花费3小时。
二、编写优良的程序代码
处理数据离不开优秀的程序代码，尤其在进行复杂数据处理时，必须使用程序。好的程序代码对数据的处

理至关重要，这不仅仅是数据处理准确度的问题，更是数据处理效率的问题。良好的程序代码应该包含好

的算法，包含好的处理流程，包含好的效率，包含好的异常处理机制等。
三、对海量数据进行分区操作
对海量数据进行分区操作十分必要，例如针对按年份存取的数据，我们可以按年进行分区，不同的数据库

有不同的分区方式，不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文

件组下，而不同的文件组存于不同的磁盘分区下，这样将数据分散开，减小磁盘I/O，减小了系统负荷，

而且还可以将日志，索引等放于不同的分区下。
四、建立广泛的索引
对海量的数据处理，对大表建立索引是必行的，建立索引要考虑到具体情况，例如针对大表的分组、排序

等字段，都要建立相应索引，一般还可以建立复合索引，对经常插入的表则建立索引时要小心，笔者在处

理数据时，曾经在一个ETL流程中，当插入表时，首先删除索引，然后插入完毕，建立索引，并实施聚合

操作，聚合完成后，再次插入前还是删除索引，所以索引要用到好的时机，索引的填充因子和聚集、非聚

集索引都要考虑。
五、建立缓存机制
当数据量增加时，一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败，

例如，笔者在处理2亿条数据聚合操作时，缓存设置为100000条/Buffer，这对于这个级别的数据量是可行

的。
六、加大虚拟内存
如果系统资源有限，内存提示不足，则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿

条的数据进行处理，内存为1GB，1个P4 2.4G的CPU，对这么大的数据量进行聚合操作是有问题的，提示内

存不足，那么采用了加大虚拟内存的方法来解决，在6块磁盘分区上分别建立了6个4096M的磁盘分区，用

于虚拟内存，这样虚拟的内存则增加为 4096*6 + 1024 = 25600 M，解决了数据处理中的内存不足问题。
七、分批处理
海量数据处理难因为数据量大，那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量

数据分批处理，然后处理后的数据再进行合并操作，这样逐个击破，有利于小数据量的处理，不至于面对

大数据量带来的问题，不过这种方法也要因时因势进行，如果不允许拆分数据，还需要另想办法。不过一

般的数据按天、按月、按年等存储的，都可以采用先分后合的方法，对数据进行分开处理。
八、使用临时表和中间表
数据量增加时，处理中要考虑提前汇总。这样做的目的是化整为零，大表变小表，分块处理完成后，再利

用一定的规则进行合并，处理过程中的临时表的使用和中间结果的保存都非常重要，如果对于超海量的数

据，大表处理不了，只能拆分为多个小表。如果处理过程中需要多步汇总操作，可按汇总步骤一步步来，

不要一条语句完成，一口气吃掉一个胖子。
九、优化查询SQL语句
在对海量数据进行查询处理过程中，查询的SQL语句的性能对查询效率的影响是非常大的，编写高效优良

的SQL脚本和存储过程是数据库工作人员的职责，也是检验数据库工作人员水平的一个标准，在对SQL语句

的编写过程中，例如减少关联，少用或不用游标，设计好高效的数据库表结构等都十分必要。笔者在工作

中试着对1亿行的数据使用游标，运行3个小时没有出结果，这是一定要改用程序处理了。
十、使用文本格式进行处理
对一般的数据处理可以使用数据库，如果对复杂的数据处理，必须借助程序，那么在程序操作数据库和程

序操作文本之间选择，是一定要选择程序操作文本的，原因为：程序操作文本速度快；对文本进行处理不

容易出错；文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式（文本格式）

，对它进行处理牵扯到数据清洗，是要利用程序进行处理的，而不建议导入数据库再做清洗。
十一、定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性，极有可能出现某处的瑕疵。例如，同样的数据中的时间字段，有的可能为非

标准的时间，出现的原因可能为应用程序的错误，系统的错误等，这是在进行数据处理时，必须制定强大

的数据清洗规则和出错处理机制。
十二、建立视图或者物化视图
视图中的数据来源于基表，对海量数据的处理，可以将数据按一定的规则分散到各个基表中，查询或处理

过程中可以基于视图进行，这样分散了磁盘I/O，正如10根绳子吊着一根柱子和一根吊着一根柱子的区别

。
十三、避免使用32位机子（极端情况）
目前的计算机很多都是32位的，那么编写的程序对内存的需要便受限制，而很多的海量数据处理是必须大

量消耗内存的，这便要求更好性能的机子，其中对位数的限制也十分重要。
十四、考虑操作系统问题
海量数据处理过程中，除了对数据库，处理程序等要求比较高以外，对操作系统的要求也放到了重要的位

置，一般是必须使用服务器的，而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓

存机制，临时空间的处理等问题都需要综合考虑。
十五、使用数据仓库和多维数据库存储
数据量加大是一定要考虑OLAP的，传统的报表可能5、6个小时出来结果，而基于Cube的查询可能只需要几

分钟，因此处理海量数据的利器是OLAP多维分析，即建立数据仓库，建立多维数据集，基于多维数据集进

行报表展现和数据挖掘等。
十六、使用采样数据，进行数据挖掘
基于海量数据的数据挖掘正在逐步兴起，面对着超海量的数据，一般的挖掘软件或算法往往采用数据抽样

的方式进行处理，这样的误差不会很高，大大提高了处理效率和处理的成功率。一般采样时要注意数据的

完整性和，防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样，抽取出400万行，经测试软件测

试处理的误差为千分之五，客户可以接受。
还有一些方法，需要在不同的情况和场合下运用，例如使用代理键等操作，这样的好处是加快了聚合时间

，因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。
海量数据是发展趋势，对数据分析和挖掘也越来越重要，从海量数据中提取有用信息重要而紧迫，这便要

求处理要准确，精度要高，而且处理时间要短，得到有价值信息要快，所以，对海量数据的研究很有前途

，也很值得进行广泛深入的研究。

2. 海量数据的查询优化及分页算法方案

很多人不知道SQL语句在SQL SERVER中是如何执行的,他们担心自己所写的SQL语句会被SQL SERVER误解。中国自学编程网提供 www.zxbc.cn 比如：
select * from table1 where name=’zhangsan’ and tID > 10000
　和执行:
select * from table1 where tID > 10000 and name=’zhangsan’
　　一些人不知道以上两条语句的执行效率是否一样,因为如果简单的从语句先后上看,这两个语句的确是不一样,如果tID是一个聚合索引,那么后一句仅仅从表的10000条以后的记录中查找就行了；而前一句则要先从全表中查找看有几个name=’zhangsan’的,而后再根据限制条件条件tID>10000来提出查询结果。
　　事实上,这样的担心是不必要的。SQL SERVER中有一个“查询分析优化器”,它可以计算出where子句中的搜索条件并确定哪个索引能缩小表扫描的搜索空间,也就是说,它能实现自动优化。
　　虽然查询优化器可以根据where子句自动的进行查询优化,但大家仍然有必要了解一下“查询优化器”的工作原理,如非这样,有时查询优化器就会不按照您的本意进行快速查询。
　　在查询分析阶段,查询优化器查看查询的每个阶段并决定限制需要扫描的数据量是否有用。如果一个阶段可以被用作一个扫描参数(SARG）,那么就称之为可优化的,并且可以利用索引快速获得所需数据。
　　SARG的定义：用于限制搜索的一个操作,因为它通常是指一个特定的匹配,一个值得范围内的匹配或者两个以上条件的AND连接。形式如下：
列名操作符 <常数或变量>
或
<常数或变量> 操作符列名
　　列名可以出现在操作符的一边,而常数或变量出现在操作符的另一边。如：
Name=’张三’
价格>5000
5000<价格
Name=’张三’ and 价格>5000
　　如果一个表达式不能满足SARG的形式,那它就无法限制搜索的范围了,也就是SQL SERVER必须对每一行都判断它是否满足WHERE子句中的所有条件。所以一个索引对于不满足SARG形式的表达式来说是无用的。
　　介绍完SARG后,我们来总结一下使用SARG以及在实践中遇到的和某些资料上结论不同的经验：

　　1、Like语句是否属于SARG取决于所使用的通配符的类型

　　如：name like ‘张%’ ,这就属于SARG

　　而：name like ‘%张’ ,就不属于SARG。

　　原因是通配符%在字符串的开通使得索引无法使用。

　　2、or 会引起全表扫描

Name=’张三’ and 价格>5000 符号SARG,而：Name=’张三’ or 价格>5000 则不符合SARG。使用or会引起全表扫描。

　　3、非操作符、函数引起的不满足SARG形式的语句

　　不满足SARG形式的语句最典型的情况就是包括非操作符的语句,如：NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等,另外还有函数。下面就是几个不满足SARG形式的例子：

ABS(价格)<5000

Name like ‘%三’

　　有些表达式,如：

WHERE 价格*2>5000

　　SQL SERVER也会认为是SARG,SQL SERVER会将此式转化为：

WHERE 价格>2500/2 [Page]

　　但我们不推荐这样使用,因为有时SQL SERVER不能保证这种转化与原始表达式是完全等价的。

　　4、IN 的作用相当与OR

　　语句：

Select * from table1 where tid in (2,3)

　　和

Select * from table1 where tid=2 or tid=3

　　是一样的,都会引起全表扫描,如果tid上有索引,其索引也会失效。

　　5、尽量少用NOT

　　6、exists 和 in 的执行效率是一样的

　　很多资料上都显示说,exists要比in的执行效率要高,同时应尽可能的用not exists来代替not in。但事实上,我试验了一下,发现二者无论是前面带不带not,二者之间的执行效率都是一样的。因为涉及子查询,我们试验这次用SQL SERVER自带的pubs数据库。运行前我们可以把SQL SERVER的statistics I/O状态打开。

　　(1）select title,price from titles where title_id in (select title_id from sales where qty>30)

　　该句的执行结果为：

　　表 ’sales’。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。

　　表 ’titles’。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。

　　(2）select title,price from titles where exists (select * from sales where sales.title_id=titles.title_id and qty>30)

　　第二句的执行结果为：

　　表 ’sales’。扫描计数 18,逻辑读 56 次,物理读 0 次,预读 0 次。

　　表 ’titles’。扫描计数 1,逻辑读 2 次,物理读 0 次,预读 0 次。

　　我们从此可以看到用exists和用in的执行效率是一样的。

　　7、用函数charindex()和前面加通配符%的LIKE执行效率一样

　　前面,我们谈到,如果在LIKE前面加上通配符%,那么将会引起全表扫描,所以其执行效率是低下的。但有的资料介绍说,用函数charindex()来代替LIKE速度会有大的提升,经我试验,发现这种说明也是错误的：

select gid,title,fariqi,reader from tgongwen where charindex(’刑侦支队’,reader)>0 and fariqi>’2004-5-5’

　　用时：7秒,另外：扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次

select gid,title,fariqi,reader from tgongwen where reader like ’%’ + ’刑侦支队’ + ’%’ and fariqi>’2004-5-5’

　　用时：7秒,另外：扫描计数 4,逻辑读 7155 次,物理读 0 次,预读 0 次。

　　8、union并不绝对比or的执行效率高

　　我们前面已经谈到了在where子句中使用or会引起全表扫描,一般的,我所见过的资料都是推荐这里用union来代替or。事实证明,这种说法对于大部分都是适用的。 [Page]

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or gid>9990000

　　用时：68秒。扫描计数 1,逻辑读 404008 次,物理读 283 次,预读 392163 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

　　用时：9秒。扫描计数 8,逻辑读 67489 次,物理读 216 次,预读 7499 次。

　　看来,用union在通常情况下比用or的效率要高的多。

　　但经过试验,笔者发现如果or两边的查询列是一样的话,那么用union则反倒和用or的执行速度差很多,虽然这里union扫描的是索引,而or扫描的是全表。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’ or fariqi=’2004-2-5’

　　用时：6423毫秒。扫描计数 2,逻辑读 14726 次,物理读 1 次,预读 7176 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-9-16’

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=’2004-2-5’

　　用时：11640毫秒。扫描计数 8,逻辑读 14806 次,物理读 108 次,预读 1144 次。

　　9、字段提取要按照“需多少、提多少”的原则,避免“select *”

　　我们来做一个试验：

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用时：4673毫秒

select top 10000 gid,fariqi,title from tgongwen order by gid desc

　　用时：1376毫秒

select top 10000 gid,fariqi from tgongwen order by gid desc

　　用时：80毫秒

　　由此看来,我们每少提取一个字段,数据的提取速度就会有相应的提升。提升的速度还要看您舍弃的字段的大小来判断。

　　10、count(*)不比count(字段)慢

　　某些资料上说：用*会统计所有列,显然要比一个世界的列名效率低。这种说法其实是没有根据的。我们来看：

select count(*) from Tgongwen

　　用时：1500毫秒

select count(gid) from Tgongwen

　　用时：1483毫秒

select count(fariqi) from Tgongwen

　　用时：3140毫秒

select count(title) from Tgongwen

　　用时：52050毫秒

　　从以上可以看出,如果用count(*)和用count(主键)的速度是相当的,而count(*)却比其他任何除主键以外的字段汇总速度要快,而且字段越长,汇总的速度就越慢。我想,如果用count(*), SQL SERVER可能会自动查找最小字段来汇总的。当然,如果您直接写count(主键)将会来的更直接些。 [Page]

　　11、order by按聚集索引列排序效率最高

　　我们来看：(gid是主键,fariqi是聚合索引列）

select top 10000 gid,fariqi,reader,title from tgongwen

　　用时：196 毫秒。扫描计数 1,逻辑读 289 次,物理读 1 次,预读 1527 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

　　用时：4720毫秒。扫描计数 1,逻辑读 41956 次,物理读 0 次,预读 1287 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

　　用时：4736毫秒。扫描计数 1,逻辑读 55350 次,物理读 10 次,预读 775 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

　　用时：173毫秒。扫描计数 1,逻辑读 290 次,物理读 0 次,预读 0 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

　　用时：156毫秒。扫描计数 1,逻辑读 289 次,物理读 0 次,预读 0 次。

　　从以上我们可以看出,不排序的速度以及逻辑读次数都是和“order by 聚集索引列” 的速度是相当的,但这些都比“order by 非聚集索引列”的查询速度是快得多的。

　　同时,按照某个字段进行排序的时候,无论是正序还是倒序,速度是基本相当的。

　　12、高效的TOP

　　事实上,在查询和提取超大容量的数据集时,影响数据库响应时间的最大因素不是数据查找,而是物理的I/0操作。如：

select top 10 * from ( )
AS

DECLARE @Str nVARCHAR(4000)

SET @Str=’SELECT     TOP ’+CAST(@RecsPerPage AS VARCHAR(20))+’ * FROM (’+@SQL+’) T WHERE T.’+@ID+’NOT IN
(SELECT     TOP ’+CAST((@RecsPerPage*(@Page-1)) AS VARCHAR(20))+’ ’+@ID+’ FROM (’+@SQL+’) T9 ORDER BY ’+@Sort+’) ORDER BY ’+@Sort

PRINT @Str

EXEC sp_ExecuteSql @Str
GO

　　其实,以上语句可以简化为：

SELECT TOP 页大小 *

FROM Table1

WHERE (ID NOT IN

            (SELECT TOP 页大小*页数 id

           FROM 表

           ORDER BY id))

ORDER BY ID

　　但这个存储过程有一个致命的缺点,就是它含有NOT IN字样。虽然我可以把它改造为：

SELECT TOP 页大小 *

FROM Table1

WHERE not exists

(select * from (select top (页大小*页数) * from table1 order by id) b where b.id=a.id )

order by id [Page]

　　即,用not exists来代替not in,但我们前面已经谈过了,二者的执行效率实际上是没有区别的。

　　既便如此,用TOP 结合NOT IN的这个方法还是比用游标要来得快一些。

　　虽然用not exists并不能挽救上个存储过程的效率,但使用SQL SERVER中的TOP关键字却是一个非常明智的选择。因为分页优化的最终目的就是避免产生过大的记录集,而我们在前面也已经提到了TOP的优势,通过TOP 即可实现对数据量的控制。

　　在分页算法中,影响我们查询速度的关键因素有两点：TOP和NOT IN。TOP可以提高我们的查询速度,而NOT IN会减慢我们的查询速度,所以要提高我们整个分页算法的速度,就要彻底改造NOT IN,同其他方法来替代它。

　　我们知道,几乎任何字段,我们都可以通过max(字段)或min(字段)来提取某个字段中的最大或最小值,所以如果这个字段不重复,那么就可以利用这些不重复的字段的max或min作为分水岭,使其成为分页算法中分开每页的参照物。在这里,我们可以用操作符“>”或“<”号来完成这个使命,使查询语句符合SARG形式。如：

Select top 10 * from table1 where id>200

　　于是就有了如下分页方案：

select top 页大小 *

from table1

where id>

        (select max (id) from

        (select top ((页码-1)*页大小) id from table1 order by id) as T

         )

    order by id

　　在选择即不重复值,又容易分辨大小的列时,我们通常会选择主键。下表列出了笔者用有着1000万数据的办公自动化系统中的表,在以GID(GID是主键,但并不是聚集索引。）为排序列、提取gid,fariqi,title字段,分别以第1、10、100、500、1000、1万、10万、25万、50万页为例,测试以上三种分页方案的执行速度：(单位：毫秒）

页    码
方案1
方案2
方案3

1
60
30
76

10
46
16
63

100
1076
720
130

500
540
12943
83

1000
17110
470
250

1万
24796
4500
140

10万
38326
42283
1553

25万
28140
128720
2330

50万
121686
127846
7168

　　从上表中,我们可以看出,三种存储过程在执行100页以下的分页命令时,都是可以信任的,速度都很好。但第一种方案在执行分页1000页以上后,速度就降了下来。第二种方案大约是在执行分页1万页以上后速度开始降了下来。而第三种方案却始终没有大的降势,后劲仍然很足。

　　在确定了第三种分页方案后,我们可以据此写一个存储过程。大家知道SQL SERVER的存储过程是事先编译好的SQL语句,它的执行效率要比通过WEB页面传来的SQL语句的执行效率要高。下面的存储过程不仅含有分页方案,还会根据页面传来的参数来确定是否进行数据总数统计。

-- 获取指定页的数据

CREATE PROCEDURE pagination3 [Page]

@tblName     varchar(255),         -- 表名

@strGetFields varchar(1000) = ’*’,    -- 需要返回的列

@fldName varchar(255)=’’,        -- 排序的字段名

@PageSize     int = 10,            -- 页尺寸

@PageIndex    int = 1,             -- 页码

@doCount    bit = 0,     -- 返回记录总数, 非 0 值则返回

select top 10000 gid,fariqi,title from tgongwen

where neibuyonghu=’办公室’

order by gid desc) as a

order by gid asc

　　这条语句,从理论上讲,整条语句的执行时间应该比子句的执行时间长,但事实相反。因为,子句执行后返回的是10000条记录,而整条语句仅返回10条语句,所以影响数据库响应时间最大的因素是物理I/O操作。而限制物理I/O操作此处的最有效方法之一就是使用TOP关键词了。TOP关键词是SQL SERVER中经过系统优化过的一个用来提取前几条或前几个百分比数据的词。经笔者在实践中的应用,发现TOP确实很好用,效率也很高。但这个词在另外一个大型数据库ORACLE中却没有,这不能说不是一个遗憾,虽然在ORACLE中可以用其他方法(如：rownumber）来解决。在以后的关于“实现千万级数据的分页显示存储过程”的讨论中,我们就将用到TOP这个关键词。

　　到此为止,我们上面讨论了如何实现从大容量的数据库中快速地查询出您所需要的数据方法。当然,我们介绍的这些方法都是“软”方法,在实践中,我们还要考虑各种“硬”因素,如：网络性能、服务器的性能、操作系统的性能,甚至网卡、交换机等。 [Page]

　三、实现小数据量和海量数据的通用分页显示存储过程

　　建立一个web 应用,分页浏览功能必不可少。这个问题是数据库处理中十分常见的问题。经典的数据分页方法是:ADO 纪录集分页法,也就是利用ADO自带的分页功能(利用游标）来实现分页。但这种分页方法仅适用于较小数据量的情形,因为游标本身有缺点：游标是存放在内存中,很费内存。游标一建立,就将相关的记录锁住,直到取消游标。游标提供了对特定集合中逐行扫描的手段,一般使用游标来逐行遍历数据,根据取出数据条件的不同进行不同的操作。而对于多表和大表中定义的游标(大的数据集合）循环很容易使程序进入一个漫长的等待甚至死机。

　　更重要的是,对于非常大的数据模型而言,分页检索时,如果按照传统的每次都加载整个数据源的方法是非常浪费资源的。现在流行的分页方法一般是检索页面大小的块区的数据,而非检索所有的数据,然后单步执行当前行。

　　最早较好地实现这种根据页面大小和页码来提取数据的方法大概就是“俄罗斯存储过程”。这个存储过程用了游标,由于游标的局限性,所以这个方法并没有得到大家的普遍认可。

　　后来,网上有人改造了此存储过程,下面的存储过程就是结合我们的办公自动化实例写的分页存储过程：

CREATE procedure pagination1

(@pagesize int,    --页面大小,如每页存储20条记录

@pageindex int     --当前页码

)

as

set nocount on

begin

declare @indextable table(id int identity(1,1),nid int)    --定义表变量

declare @PageLowerBound int    --定义此页的底码

declare @PageUpperBound int    --定义此页的顶码

set @PageLowerBound=(@pageindex-1)*@pagesize

set @PageUpperBound=@PageLowerBound+@pagesize

set rowcount @PageUpperBound

insert into @indextable(nid) select gid from TGongwen where fariqi >dateadd(day,-365,getdate()) order by fariqi desc

select O.gid,O.mid,O.title,O.fadanwei,O.fariqi from TGongwen O,@indextable t where O.gid=t.nid

and t.id>@PageLowerBound and t.id<=@PageUpperBound order by t.id

end

set nocount off

　　以上存储过程运用了SQL SERVER的最新技术――表变量。应该说这个存储过程也是一个非常优秀的分页存储过程。当然,在这个过程中,您也可以把其中的表变量写成临时表：CREATE TABLE #Temp。但很明显,在SQL SERVER中,用临时表是没有用表变量快的。所以笔者刚开始使用这个存储过程时,感觉非常的不错,速度也比原来的ADO的好。但后来,我又发现了比此方法更好的方法。

　　笔者曾在网上看到了一篇小短文《从数据表中取出第n条到第m条的记录的方法》,全文如下： [Page]

从publish 表中取出第 n 条到第 m 条的记录：
SELECT TOP m-n+1 *
FROM publish
WHERE (id NOT IN
　　　　(SELECT TOP n-1 id
　　　　 FROM publish))

id 为publish 表的关键字

　　我当时看到这篇文章的时候,真的是精神为之一振,觉得思路非常得好。等到后来,我在作办公自动化系统(ASP.NET+ C#＋SQL SERVER）的时候,忽然想起了这篇文章,我想如果把这个语句改造一下,这就可能是一个非常好的分页存储过程。于是我就满网上找这篇文章,没想到,文章还没找到,却找到了一篇根据此语句写的一个分页存储过程,这个存储过程也是目前较为流行的一种分页存储过程,我很后悔没有争先把这段文字改造成存储过程：

CREATE PROCEDURE pagination2
(
@SQL nVARCHAR(4000),      --不带排序语句的SQL语句
@Page int,                --页码
@RecsPerPage int,         --每页容纳的记录数
@ID VARCHAR(255),         --需要排序的不重复的ID号
@Sort VARCHAR(255)        --排序字段及规则
@OrderType bit = 0,    -- 设置排序类型, 非 0 值则降序

@strWhere    varchar(1500) = ’’    -- 查询条件 (注意: 不要加 where)

AS

declare @strSQL     varchar(5000)         -- 主语句

declare @strTmp     varchar(110)          -- 临时变量

declare @strOrder varchar(400)          -- 排序类型

if @doCount != 0

    begin

      if @strWhere !=’’

      set @strSQL = \"select count(*) as Total from [\" + @tblName + \"] where \"+@strWhere

      else

      set @strSQL = \"select count(*) as Total from [\" + @tblName + \"]\"

end

--以上代码的意思是如果@doCount传递过来的不是0,就执行总数统计。以下的所有代码都是@doCount为0的情况

else

begin

if @OrderType != 0

begin

      set @strTmp = \"<(select min\"

set @strOrder = \" order by [\" + @fldName +\"] desc\"

--如果@OrderType不是0,就执行降序,这句很重要！

end

else

begin

      set @strTmp = \">(select max\"

      set @strOrder = \" order by [\" + @fldName +\"] asc\" [Page]

end

if @PageIndex = 1

begin

      if @strWhere != ’’

      set @strSQL = \"select top \" + str(@PageSize) +\" \"+@strGetFields+ \"    from [\" + @tblName + \"] where \" + @strWhere + \" \" + @strOrder

       else

       set @strSQL = \"select top \" + str(@PageSize) +\" \"+@strGetFields+ \"    from [\"+ @tblName + \"] \"+ @strOrder

--如果是第一页就执行以上代码,这样会加快执行速度

end

else

begin

--以下代码赋予了@strSQL以真正执行的SQL代码

set @strSQL = \"select top \" + str(@PageSize) +\" \"+@strGetFields+ \"    from [\"

      + @tblName + \"] where [\" + @fldName + \"]\" + @strTmp + \"([\"+ @fldName + \"]) from (select top \" + str((@PageIndex-1)*@PageSize) + \" [\"+ @fldName + \"] from [\" + @tblName + \"]\" + @strOrder + \") as tblTmp)\"+ @strOrder

if @strWhere != ’’

      set @strSQL = \"select top \" + str(@PageSize) +\" \"+@strGetFields+ \"    from [\"

          + @tblName + \"] where [\" + @fldName + \"]\" + @strTmp + \"([\"

          + @fldName + \"]) from (select top \" + str((@PageIndex-1)*@PageSize) + \" [\"

          + @fldName + \"] from [\" + @tblName + \"] where \" + @strWhere + \" \"

          + @strOrder + \") as tblTmp) and \" + @strWhere + \" \" + @strOrder

end

end

exec (@strSQL) [Page]

GO

　　上面的这个存储过程是一个通用的存储过程,其注释已写在其中了。

　　在大数据量的情况下,特别是在查询最后几页的时候,查询时间一般不会超过9秒；而用其他存储过程,在实践中就会导致超时,所以这个存储过程非常适用于大容量数据库的查询。

　　笔者希望能够通过对以上存储过程的解析,能给大家带来一定的启示,并给工作带来一定的效率提升,同时希望同行提出更优秀的实时数据分页算法。
四、聚集索引的重要性和如何选择聚集索引

　　在上一节的标题中,笔者写的是：实现小数据量和海量数据的通用分页显示存储过程。这是因为在将本存储过程应用于“办公自动化”系统的实践中时,笔者发现这第三种存储过程在小数据量的情况下,有如下现象：

　　1、分页速度一般维持在1秒和3秒之间。

　　2、在查询最后一页时,速度一般为5秒至8秒,哪怕分页总数只有3页或30万页。

　　虽然在超大容量情况下,这个分页的实现过程是很快的,但在分前几页时,这个1－3秒的速度比起第一种甚至没有经过优化的分页方法速度还要慢,借用户的话说就是“还没有ACCESS数据库速度快”,这个认识足以导致用户放弃使用您开发的系统。

　　笔者就此分析了一下,原来产生这种现象的症结是如此的简单,但又如此的重要：排序的字段不是聚集索引！

　　本篇文章的题目是：“查询优化及分页算法方案”。笔者只所以把“查询优化”和“分页算法”这两个联系不是很大的论题放在一起,就是因为二者都需要一个非常重要的东西――聚集索引。

　　在前面的讨论中我们已经提到了,聚集索引有两个最大的优势：

　　1、以最快的速度缩小查询范围。

　　2、以最快的速度进行字段排序。

　　第1条多用在查询优化时,而第2条多用在进行分页时的数据排序。

　　而聚集索引在每个表内又只能建立一个,这使得聚集索引显得更加的重要。聚集索引的挑选可以说是实现“查询优化”和“高效分页”的最关键因素。

　　但要既使聚集索引列既符合查询列的需要,又符合排序列的需要,这通常是一个矛盾。

　　笔者前面“索引”的讨论中,将fariqi,即用户发文日期作为了聚集索引的起始列,日期的精确度为“日”。这种作法的优点,前面已经提到了,在进行划时间段的快速查询中,比用ID主键列有很大的优势。

　　但在分页时,由于这个聚集索引列存在着重复记录,所以无法使用max或min来最为分页的参照物,进而无法实现更为高效的排序。而如果将ID主键列作为聚集索引,那么聚集索引除了用以排序之外,没有任何用处,实际上是浪费了聚集索引这个宝贵的资源。

　　　为解决这个矛盾,笔者后来又添加了一个日期列,其默认值为getdate()。用户在写入记录时,这个列自动写入当时的时间,时间精确到毫秒。即使这样,为了避免可能性很小的重合,还要在此列上创建UNIQUE约束。将此日期列作为聚集索引列。

　　有了这个时间型聚集索引列之后,用户就既可以用这个列查找用户在插入数据时的某个时间段的查询,又可以作为唯一列来实现max或min,成为分页算法的参照物。

　　经过这样的优化,笔者发现,无论是大数据量的情况下还是小数据量的情况下,分页速度一般都是几十毫秒,甚至0毫秒。而用日期段缩小范围的查询速度比原来也没有任何迟钝。 [Page]

　　聚集索引是如此的重要和珍贵,所以笔者总结了一下,一定要将聚集索引建立在：

　　1、您最频繁使用的、用以缩小查询范围的字段上；

　　2、您最频繁使用的、需要排序的字段上。

　　结束语：

　　本篇文章汇集了笔者近段在使用数据库方面的心得,是在做“办公自动化”系统时实践经验的积累。希望这篇文章不仅能够给大家的工作带来一定的帮助,也希望能让大家能够体会到分析问题的方法；最重要的是,希望这篇文章能够抛砖引玉,掀起大家的学习和讨论的兴趣,以共同促进,共同为公安科技强警事业和金盾工程做出自己最大的努力。

　　最后需要说明的是,在试验中,我发现用户在进行大数据量查询的时候,对数据库速度影响最大的不是内存大小,而是CPU。在我的P4 2.4机器上试验的时候,查看“资源管理器”,CPU经常出现持续到100%的现象,而内存用量却并没有改变或者说没有大的改变。即使在我们的HP ML 350 G3服务器上试验时,CPU峰值也能达到90%,一般持续在70%左右。

　　本文的试验数据都是来自我们的HP ML 350服务器。服务器配置：双Inter Xeon 超线程 CPU 2.4G,内存1G,操作系统Windows Server 2003 Enterprise Edition,数据库SQL Server 2000 SP3。