1,正则匹配(file_get_contents)
下面我们先模拟一个搜狐的网站进行采集一下,下面是代码,方便各位随时使用呦!
$url="http://www.baidu.com/";//写一个搜狐的网址,采集之前一定要确定有网络呦! $con=file_get_contents("compress.zlib://".$url);//为了防止乱码,要在前面拼上“compress.zlib: print_r($con);exit;
下面我们来看看搜狐页面的部分采集
//正则匹配规则
$url=<