采集网页内容,pdo入库,定时采集

1.网址:http://sports.baidu.com/

<?php
    /**
     * 采集soho网页新闻
     */
    
    // header头
    header("content-type:text/html;charset=utf8");
    ignore_user_abort();//关掉浏览器,PHP脚本也可以继续执行.    
    set_time_limit(0);// 通过set_time_limit(0)可以让程序无限制的执行下去    
    $interval=30;// 每隔半小时运行
    do{
    header("content-type:text/html;charset=utf8");
    // 网站地址
    $url="http://sports.baidu.com/";
    // 获取网站内容
    $str=file_get_contents($url);
    //print_r($str);die;
    // 转码
    $str=iconv('GBK','utf-8',$str);
    $reg='#<div class="column clearfix" id="col_focus">.*</div>#isU';
    preg_match($reg, $str,$arr);
    $reg2 = '#<a href="(.*)" mon=".*" target="_blank">(.*)</a>#isU';
    preg_match_all($reg2,$arr[0],$arr2);
    //$data=array();
    //print_r($arr2);die;
    $dsn = "mysql:host=localhost;dbname=lianxi";
    $db = new PDO($dsn, 'root', 'root');
    $db->query('set names utf8');
    $time = date('Y-m-d H:i:s',time());
    for($i=0;$i<count($arr2[1]);$i++){
        $url = $arr2[1][$i];
        $content = $arr2[2][$i];
        $arr = $db->exec("INSERT INTO `xinwen` (`url`, `content`, `time`) VALUES ('$url', '$content', '$time')");
    }
    // if($arr){
    //     header('content-type:text/html;charset=utf-8');
    //     echo "采集成功";
    // }
   sleep($interval);// 等待5分钟    
}while(true);
    //print_r($arr);die;
    
 ?> 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值