1.网址:http://sports.baidu.com/
<?php
/**
* 采集soho网页新闻
*/
// header头
header("content-type:text/html;charset=utf8");
ignore_user_abort();//关掉浏览器,PHP脚本也可以继续执行.
set_time_limit(0);// 通过set_time_limit(0)可以让程序无限制的执行下去
$interval=30;// 每隔半小时运行
do{
header("content-type:text/html;charset=utf8");
// 网站地址
$url="http://sports.baidu.com/";
// 获取网站内容
$str=file_get_contents($url);
//print_r($str);die;
// 转码
$str=iconv('GBK','utf-8',$str);
$reg='#<div class="column clearfix" id="col_focus">.*</div>#isU';
preg_match($reg, $str,$arr);
$reg2 = '#<a href="(.*)" mon=".*" target="_blank">(.*)</a>#isU';
preg_match_all($reg2,$arr[0],$arr2);
//$data=array();
//print_r($arr2);die;
$dsn = "mysql:host=localhost;dbname=lianxi";
$db = new PDO($dsn, 'root', 'root');
$db->query('set names utf8');
$time = date('Y-m-d H:i:s',time());
for($i=0;$i<count($arr2[1]);$i++){
$url = $arr2[1][$i];
$content = $arr2[2][$i];
$arr = $db->exec("INSERT INTO `xinwen` (`url`, `content`, `time`) VALUES ('$url', '$content', '$time')");
}
// if($arr){
// header('content-type:text/html;charset=utf-8');
// echo "采集成功";
// }
sleep($interval);// 等待5分钟
}while(true);
//print_r($arr);die;
?>