php 正则采集新闻,php采集-防乱码-CURL采集，匹配正则采集

馮oooooo

于 2021-04-22 16:16:26 发布

阅读量145

点赞数

文章标签： php 正则采集新闻

1,正则匹配(file_get_contents)

下面我们先模拟一个搜狐的网站进行采集一下，下面是代码，方便各位随时使用呦！

$url="http://www.baidu.com/";//写一个搜狐的网址，采集之前一定要确定有网络呦！

$con=file_get_contents("compress.zlib://".$url);//为了防止乱码，要在前面拼上“compress.zlib:

print_r($con);exit;

下面我们来看看搜狐页面的部分采集

//正则匹配规则

$url="http://www.sohu.com/";//写一个搜狐的网址，采集之前一定要确定有网络呦！

$con=file_get_contents("compress.zlib://".$url);//为了防止乱码，要在前面拼上“compress.zlib"

$preg="#

(.*)#isU";//正则的规则是寻找一个title标签的内容

preg_match_all( $preg,$con,$result);//php正则表达式

print_r($result);exit;

运行下面这个试试吧：试试采集一下不同的标签

$url="http://www.chinaobd2.com/";//写一个chinaobd2的网址，采集之前一定要确定有网络呦！

$con=file_get_contents("compress.zlib://".$url);//为了防止乱码，要在前面拼上“compress.zlib:

$preg='#(.*)#isU';

preg_match_all($preg,$con,$res);

print_r($res);exit;

接下来到了提问的时间了，给大家解释一下“.*”是匹配全部 i,s,u的意思分别是

i是将正则表达式取消大小写的敏感性

s 模式中的圆点元字符(.)匹配所有的字符，包括换行符

U (PCRE_UNGREEDY) 本修正符反转了匹配数量的值使其不是默认的重复，

而变成在后面跟上“?”才变得重复。这和 Perl 不兼容。也可以通过在模式之中设定 (?U) 修正符来启用此选项。

关于#暂时还莫有标准的解释，知道的盆友们留言评论呦

2,CURL采集：(直接可以运行呦)

$url="http://www.chinaobd2.com/";

$ch = curl_init(); //1.初始化

curl_setopt($ch, CURLOPT_URL, $url); //2.请求地址

curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");//3.请求方式，请求方式默认是get

curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

$tmpInfo = curl_exec($ch);//6.执行

if (curl_errno($ch)) {//7.如果出错

return curl_error($ch);

}

curl_close($ch);//8.关闭

var_dump($tmpInfo);

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
php 正则采集新闻,php采集-防乱码-CURL采集，匹配正则采集

1,正则匹配(file_get_contents)下面我们先模拟一个搜狐的网站进行采集一下，下面是代码，方便各位随时使用呦！$url="http://www.baidu.com/";//写一个搜狐的网址，采集之前一定要确定有网络呦！$con=file_get_contents("compress.zlib://".$url);//为了防止乱码，要在前面拼上“compress.zlib:print_...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。