php获取网站内容(file_get_contents)

public function fetchingData() {

header("Content-type:text/html;Charset=utf8");

$url="http://www.itheima.com.com/2017/0329/23.html"; //抓取网站内容

$ret=file_get_contents($url); // 将内容的编码集由 GB312 替换成UTF-8

$ret=iconv('GB2312', 'UTF-8', $ret); // 替换掉不需要的内容

$ret=str_replace('', '', $ret); $ret =preg_replace("/(\d+)、/", "", $ret); //正则匹配内容数据 

$pattern= "/\(.*)\<\/p\>/i"; preg_match_all($pattern, $ret,$matches); // 正则匹配标题数据 

$titlePattern = "/\(.*)\<\/h2\>/i"; preg_match($titlePattern,$ret, $match); 

$title =$match[1]; // 将匹配结果集放入数据库 

if(!empty($matches[1])) {
    $filterResult = array_filter($matches[1]); 
    foreach($filterResult as $item) {
        $data =[ 
        'source' => 'http://www.itcast.com', 
        'author'=> $title, 
        'content' => $item, 
        'add_time' => time()
        ]; 

        $id =$this->rhesis->addInfo($data);
        if ($id > 0) {
            echo$item.' add successful!'; echo ""; 
        }
    }
}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值