php使用file_get_contents抓取途牛网攻略内容2017-09-21 09:37
php中抓取(采集)内容,有两种方法。
一种是使用curl,另一种是使用file_get_contents。
今天我们就讲讲如何使用file_get_contents采集内容。
以抓取途牛网攻略内容为例。 php代码<?php
$url="http://www.tuniu.com/trips/12569604";
$content=file_get_contents($url);
//获取title
preg_match_all('/
([sS]*?)
/',$content, $mat);$title=trim($mat[2][0]);
//获主正文内容
$start=strpos(' '.$content,'
')+strlen('
');
//$start这里的html标签,是根据抓取页面来的,获取从哪里开始采集
$end=strpos(' '.$content,'
//$end这里的html标签,同上一样,获取结束的位置
$content=substr($content,$start,$end-$start);
//最后$end-$start,以结束的位置减去开始的位置,即为内容的长度
?>
file_get_contents的作用,就是将文件读取到一个字符串中,如果不经过代码过滤,那么对应url的所有内容将会被读取过来。
下次我们再讲解如何使用curl命令来抓取内容。