php利用file_get_contents函数抓取网页指定内容

7 篇文章 0 订阅
2 篇文章 0 订阅

今天在csdn上面看到有人问,抓取页面指定内容,然后预算100以内,然后就点了个竞标,虽然不知道能不能拿下来,毕竟一百也是钱啊偷笑,然后想想看怎么做,代码直接贴上来算了,看到了就赚到了。

<?php

//有些网页加载时间比较长,可以通过动态设置执行最大时间,可选
//ini_set("max_execution_time", "45");

//有些网页有防盗链,可以模拟成浏览器去请求,可选
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');


$url = 'http://news.sohu.com/';


//也可以用fopen或者强大的curl
$info=file_get_contents($url);

//针对编码问题,可以转码,可选
//$info =  mb_convert_encoding($html,'utf8','gbk');

//如果想只匹配一次,可以用preg_match函数
preg_match_all('/<h1><a href="(.*)" title="" .*>(.*)<\/a><\/h1>/i',$info,$m);

//结果已经出来啦
//var_dump($m);

//把找到了链接和新闻,组装成k=>v形式,这样方便展示到自己的页面上
$news = array_combine($m[1],$m[2]);

var_dump($news);

就这样,我们就得到了搜狐新闻的h1标题新闻啦。

结果如下:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值