PHP CURL实现单线程、多线程方法

最新推荐文章于 2023-12-07 20:03:56 发布

qq_331542397

最新推荐文章于 2023-12-07 20:03:56 发布

阅读量1.6k

点赞数 1

分类专栏： php curl 文章标签： php 开发语言后端

本文链接：https://blog.csdn.net/qq_39155252/article/details/121010077

版权

php 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

curl

2 篇文章 0 订阅

订阅专栏

PHP 利用 Curl 可以完成各种传送文件操作，比如模拟浏览器发送GET，POST请求等等。

然而因为php语言本身不支持多线程，所以开发爬虫程序效率并不高，一般采集数据可以利用 phpQuery类来采集数据库，

在此之外也可以用 Curl ，借助Curl 这个功能实现并发多线程的访问多个url地址以实现并发多线程抓取网页或者下载文件。

如果需要了解curl所有函数可以看这里：函数列表查看

下面是多线程使用到的curl相关函数：

curl_multi_add_handle — 向curl批处理会话中添加单独的curl句柄

curl_multi_close — 关闭一组cURL句柄

curl_multi_exec — 运行当前 cURL 句柄的子连接

curl_multi_getcontent — 如果设置了CURLOPT_RETURNTRANSFER，则返回获取的输出的文本流

curl_multi_info_read — 获取当前解析的cURL的相关传输信息

curl_multi_init — 返回一个新cURL批处理句柄

curl_multi_remove_handle — 移除curl批处理句柄资源中的某个句柄资源

curl_multi_select — 等待所有cURL批处理中的活动连接

curl_multi_setopt — 为 cURL 并行处理设置一个选项

curl_multi_strerror — Return string describing error code

实现步骤如下：

1、调用 curl_multi_init，初始化一个批处理handle
2、循环调用 curl_multi_add_handle，往1中的批处理handle 添加curl_init来的子handle
3、持续调用 curl_multi_exec，直到所有子handle执行完毕。
4、根据需要循环调用 curl_multi_getcontent 获取结果
5、调用 curl_multi_remove_handle，并为每个字handle调用curl_close
6、调用 curl_multi_close

一般来说，使用多线程curl获取网页源码或下载图片等都是针对多个网址操作的，而不是每次都请求一次，那不如去循环 curl_exec。

接下来直接放封装好的函数：

/*
    多线程获取网页源码
    @param array $urls
    @return array
*/

function curl_multi($urls)
{
    if (!is_array($urls) or count($urls) == 0) {
        return false;
    }
    $num = count($urls);
    $curl = $curl2 = $text = array();
    $handle = curl_multi_init();
    function createCh($url)
    {
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Linux; U; Android 4.4.1; zh-cn; R815T Build/JOP40D) AppleWebKit/533.1 (KHTML, like Gecko)Version/4.0 MQQBrowser/4.5 Mobile Safari/533.1');
        //设置头部
        curl_setopt($ch, CURLOPT_REFERER, $url); //设置来源
        curl_setopt($ch, CURLOPT_ENCODING, "gzip"); // 编码压缩
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //是否采集301、302之后的页面
        curl_setopt($ch, CURLOPT_MAXREDIRS, 5); //查找次数，防止查找太深
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); // 对认证证书来源的检查
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, FALSE); // 从证书中检查SSL加密算法是否存在
        curl_setopt($ch, CURLOPT_TIMEOUT, 20);
        curl_setopt($ch, CURLOPT_HEADER, 0); //输出头部
        return $ch;
    }
    //准备分配线程
    foreach ($urls as $k => $v) {
        $url = $urls[$k];
        $curl[$k] = createCh($url);
        //向curl批处理会话中添加单独的curl句柄
        curl_multi_add_handle($handle, $curl[$k]);
    }
    $active = null;
    do {
        //运行当前 cURL 句柄的子连接
        $mrc = curl_multi_exec($handle, $active);
    } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    
        while ($active && $mrc == CURLM_OK) {
        //等待所有cURL批处理中的活动连接
        if (curl_multi_select($handle) != -1) {
        usleep(100);
        }
        do {
        //运行当前 cURL 句柄的子连接
        $mrc = curl_multi_exec($handle, $active);
        } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    }
    
    foreach ($curl as $k => $v) {
        if (curl_error($curl[$k]) == "") {
            //如果没有报错则将获取到的字符串添加到数组中
            $text[$k] = (string) curl_multi_getcontent($curl[$k]);
        }
        //移除并关闭curl该句柄资源
        curl_multi_remove_handle($handle, $curl[$k]);
        curl_close($curl[$k]);
    }
    //关闭cURL句柄
    curl_multi_close($handle);
    //将数组返回
    return $text;
}

函数的使用示例：

<?php
    $arr=[
            'http://baidu.com',
            'http://taobao.com',
            'http://jd.com',
            'http://wslmf.com'
        ];
    $res=curl_multi($arr);
    var_dump($res);

到这里基本就结束了。此外，继续简单的封装了单线程 curl 访问（等同于file_get_contents）一样的函数：

/*
    访问网站源码
    @param string $url
    @return string
*/

function curl_get($url)
{
    $ch = curl_init($url);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Linux; U; Android 4.4.1; zh-cn; R815T Build/JOP40D) AppleWebKit/533.1 (KHTML, like Gecko)Version/4.0 MQQBrowser/4.5 Mobile Safari/533.1');
    curl_setopt($ch, CURLOPT_TIMEOUT, 10);
    $content = curl_exec($ch);
    curl_close($ch);
    return ($content);
}

最后，大家尽可能使用curl去爬取网站，因为 file_get_contents 效率太低了，curl 大概能提升 40%

curl 伪造 ip 方法及可选 post/get 提交方式

/**
     * 请求html页面源码接口数据方法
     * @param string $url 请求地址
     * @param int 访问方式 1:post  0:get 默认 get方式
     * @param string 上传文件
     * @param string cookie文件
     * @param bool 请求头
     * @return string 数据
     */
    function getHtml($url, $ifpost = 0, $datafields = '', $cookiefile = '', $v = false)
    {
        // 伪造IP
        $xforip = rand(1, 254) . "." . rand(1, 254) . "." . rand(1, 254) . "." . rand(1, 254);
        $header = array("Connection: Keep-Alive", "Accept: application/json, text/javascript, */*; q=0.01", "Pragma: no-cache", "Accept-Language: zh-Hans-CN,zh-Hans;q=0.8,en-US;q=0.5,en;q=0.3", "User-Agent: Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14", 'CLIENT-IP:' . $xforip, 'X-FORWARDED-FOR:' . $xforip); // 请求头信息
        $ch = curl_init();
        // 使用伪造代理IP
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_HEADER, $v);
        curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
        $ifpost && curl_setopt($ch, CURLOPT_POST, $ifpost);
        $ifpost && curl_setopt($ch, CURLOPT_POSTFIELDS, $datafields);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
        curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
        $cookiefile && curl_setopt($ch, CURLOPT_COOKIEFILE, $cookiefile);
        $cookiefile && curl_setopt($ch, CURLOPT_COOKIEJAR, $cookiefile);
        $r = curl_exec($ch);
        curl_close($ch);
        return $r;
    }

qq_331542397

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
PHP CURL实现单线程、多线程方法

PHP 利用 Curl 可以完成各种传送文件操作，比如模拟浏览器发送GET，POST请求等等。然而因为php语言本身不支持多线程，所以开发爬虫程序效率并不高，一般采集数据可以利用 phpQuery类来采集数据库，在此之外也可以用 Curl ，借助Curl 这个功能实现并发多线程的访问多个url地址以实现并发多线程抓取网页或者下载文件。如果需要了解curl所有函数可以看这里：函数列表查看下面是多线程使用到的curl相关函数：curl_multi_add_handle — 向curl批处理会话中添加
复制链接

扫一扫