今天在csdn上面看到有人问,抓取页面指定内容,然后预算100以内,然后就点了个竞标,虽然不知道能不能拿下来,毕竟一百也是钱啊,然后想想看怎么做,代码直接贴上来算了,看到了就赚到了。
<?php
//有些网页加载时间比较长,可以通过动态设置执行最大时间,可选
//ini_set("max_execution_time", "45");
//有些网页有防盗链,可以模拟成浏览器去请求,可选
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');
$url = 'http://news.sohu.com/';
//也可以用fopen或者强大的curl
$info=file_get_contents($url);
//针对编码问题,可以转码,可选
//$info = mb_convert_encoding($html,'utf8','gbk');
//如果想只匹配一次,可以用preg_match函数
preg_match_all('/<h1><a href="(.*)" title="" .*>(.*)<\/a><\/h1>/i',$info,$m);
//结果已经出来啦
//var_dump($m);
//把找到了链接和新闻,组装成k=>v形式,这样方便展示到自己的页面上
$news = array_combine($m[1],$m[2]);
var_dump($news);
就这样,我们就得到了搜狐新闻的h1标题新闻啦。
结果如下: