php代码优化系列(一)--数据库读取
任务:从数据库中读取100万条记录,存成xml格式。
这似乎是一个很简单的问题,但是初学者往往错误的使用了php提供的函数,而发现程序根本无法运行,当然数据量小的时候都是不会有问题的。
读取数据库的误区:
如果你用某些封装的类库,可能会提供类似下面的一个函数:
{
$rs = mysql_query ( $sql );
$result = array ();
if ( is_resource ( $rs )) {
while ( $line = mysql_fetch_assoc ( $rs )) {
$result [] = $line ;
}
} else if ( $rs === false ) {
return false ;
}
return $result ;
}
在数据量很小的时候这个函数很好用,执行一个sql,直接返回一个数组。但是要是数据量是一百万的话,你直接这样做的话,那么至少要消耗200M的内存,因为一个100万记录的数据,全部放在一个数组里面,至少要200M。那么怎么做呢,上面这个函数给了我们思路。$rs = mysql_query($sql); 这句返回的是一个资源,资源是什么,你可以不用深究,你可以认为是一个指针,指向你查询记录的一个指针。即使你有1000万的记录,这个资源占用的内存也是很小很小的。$line = mysql_fetch_assoc($rs)这一句就是把指针玩下移一个距离,然后读取该行的记录。这个很像是file_get_contents 读取文件和 fopen 和 fread 组合读取文件差别。比如你读取一个100M的文件,用file_get_contents就要占用100M 的内存,用fopen 和 fread组合,你就可以先用fopen获取一个函数的指针,然后用fread每次读取一个固定的字节。这样不会出现大量内存使用的情况,当然平时一个文件才几个k,那就算了,不用这样来节省内存。
有了以上的分析我们就知道这个程序该怎么样写了。
{
$xml = " <?xml version=\ " 1.0 \ " encoding=\ " iso - 8859 - 1 \ " ?><records> " ;
$i = 0 ;
$rs = mysql_query ( $sql ); // 获取数据库资源
$fp = fopen ( $filepath , ' w+ ' ); // 获取文件资源
while ( $line = mysql_fetch_assoc ( $rs )) // 读取一行
{
$xml .= buildOneXmlNode( $line );
$i ++ ;
if ( $i > 0 && $i % 1000 == 0 ) { // 为了避免频繁的io,提高效率,我们这里以1000条记录为限,做了一个缓存。1000条记录大概要迫8M的内存。
fwrite ( $fp , $xml );
$xml = '' ;
$i = 0 ;
}
}
fwrite ( $fp , $xml . " </records> " ); // 不要忘了这一行,$xml 可能还有没有保存的数据。还有标签要闭合。
fclose ( $fp );
}
这样,我们就可以导出100W量级的数据了,可以尝试一下。注意这个bulidonenode()函数根据你具体的xml的格式,进行处理,这里只是说明思想。