使用PHP CURL制作爬虫抓取数据

最新推荐文章于 2021-05-13 15:18:10 发布

一筐大白菜啊

最新推荐文章于 2021-05-13 15:18:10 发布

阅读量1.4k

点赞数 2

分类专栏： PHP 文章标签： php爬虫

本文链接：https://blog.csdn.net/sphinx1122/article/details/102695926

版权

PHP 专栏收录该内容

52 篇文章 1 订阅

订阅专栏

刚刚使用CURL测试，发现CURL是可以获取https的网页的，这样抓取网页内容就变简单了，以抓取w3school的php教程课程表为例：
在这里插入图片描述

一、编写一个CURL请求函数

用于调用

function getContent($url)
{
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 3);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_MAXREDIRS, 3);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // https协议
    $html = curl_exec($ch);
    curl_close($ch);

    return $html;
}

二、调用函数

传入参数，参数是网页完整的网址

$cnt = getContent("https://www.w3school.com.cn/php/index.asp");

三、使用正则匹配

匹配规则可以按自己的方法写，我写的是以 <li><a 开始，以</a></li>结束，匹配中间的内容，其中.*是用于匹配a标签内的内容，这个内容对应$0用不了上的，而两个肩括号>(.*)<内匹配$1的才是正文

preg_match_all('/<li><a .*>(.*)<\/a><\/li>/', $cnt, $match);

四、输出内容：

print_r($match[1]);

抓取结果正确！！最终使用php抓取页面的功能完成啦~~~

乱码问题：

w3school.com.cn是使用gbk编码，不是我们常用的utf-8，出现乱码情况下在代码前面加上gbk编码

header("Content-type:text/html;charset=gbk");

curl扩展
phpinfo查看是否有curl扩展，我的是有的

phpinfo();

在这里插入图片描述
没有curl扩展的话，你需要去开启curl，在 php.ini 中找到

;extension=php_curl.dll

改成

extension=php_curl.dll

重启apache就可以了

一筐大白菜啊

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录