我们在日常的工作中,经常会遇到用PHP操作大文件,比如需要分析系统日志等问题,有的日志文件可能很大,几个G以上,如果用file和file_get_contents函数的话,就会产生问题,由于这两个函数是一次性将文件内容加载到内存中,而有时候PHP本身或机器内存的限制,往往就会产生内存的溢出。下面就介绍一下如何正确的读取大文件,我们可以用fopen,fgets函数通过指针进行操作,看如下代码:
function getFileLines($filename, $startLine = 1, $limitLine = 50, $method = ‘rb’) {
$content = false;
$fp = fopen($filename, $method);
if($fp) {
// 跳过前$startLine行
for ($i=1;$i<$startLine;++$i) {
fgets($fp);
}
// 读取文件指定行内容
$limitLine += $i;
for($i;$i<=$limitLine;++$i){
$content[]=fgets($fp);
}
}
fclose($fp);
return $content;
}
除了这种方法之外,还有效率更好一点的方法,那就是使用SplFileObject。
从 PHP 5.1.0 开始,SPL 库增加了 SplFileObject 与 SplFileInfo 两个标准的文件操作类。SplFileInfo 是从 PHP 5.1.2 开始实现的。
SplFileInfo 仅用于获取文件的一些属性信息,如文件大小、文件访问时间、文件修改时间、后缀名等值。
SplFileObject文件操作类继承了SplFileInfo的所有功能,它将PHP文件中的I/O函数综合在一起如fopen()、fread()等函数,形成了一个多功能的面向对象的接口。可以使用这个类以面向对象的方法来读取和操作文件数据,同时还能获取文件的大小及其它详细信息。
SplFileObject也是一个迭代器,并且还是可查找的,这允许通过foreach循环来使用文件的内容。如:
$it = new SplFileObject('pm.csv');
foreach($it as $line) {
echo $line;
}
?>
那么我们就来看看用SplFileObject如何进行大文件的读取操作,代码如下:
function getFileLines($filename, $startLine = 1, $limitLine = 50, $method = ‘rb’) {
$content = false;
$fp = new SplFileObject($filename, $method);
$fp->seek($startLine – 1);// 转到第N行, seek方法参数从0开始计数
for($i = 0; $i < $limitLine; $i++) {
$content[] = $fp->current();// current()获取当前行内容
$fp->next();// 下一行
}
return $content;
}
经过多次测试,证明SplFileObject比上面的fgets效率要好一些,特别是文件行数比较多,读取的起始行数不在文件的前部时,效果更加明显。