浅析php curl_multi_*系列函数进行批量http请求

浅析php curl_multi_*系列函数进行批量http请求

何起:

  一系列 数量很大 数据不热 还希望被蜘蛛大量抓取的页面,在蜘蛛抓取高峰时,响应时间会被拉得很高。

  前人做了这样一个事儿:页面分3块,用3个内部接口提供,入口文件用curl_multi_*系列函数抓取3个内部接口的内容,拼成一个页面。

  怀疑这样做会有影响性能的可能。

 

  故学而分析之。

 

看了php官方手册,总结批量调用过程如下:

  curl_multi_init — 返回一个新cURL批处理句柄,作为curl_init生成的单个curl句柄的容器

  curl_multi_add_handle — 向curl批处理会话中添加单独的curl句柄。

  curl_multi_exec — 运行当前 cURL 句柄的子连接,curl_multi_select()的值

    curl_multi_select — 等待所有cURL批处理中的活动连接

  curl_multi_getcontent — 如果设置了CURLOPT_RETURNTRANSFER,则返回获取的输出的文本流

  curl_multi_remove_handle — 移除curl批处理句柄资源中的某个句柄资源

  curl_multi_close — 关闭一组cURL句柄

摘一段php官网的示例代码:  

复制代码
<?php
// 创建一对cURL资源
$ch1 = curl_init();
$ch2 = curl_init();

// 设置URL和相应的选项
curl_setopt($ch1, CURLOPT_URL, "http://lxr.php.net/");
curl_setopt($ch1, CURLOPT_HEADER, 0);
curl_setopt($ch2, CURLOPT_URL, "http://www.php.net/");
curl_setopt($ch2, CURLOPT_HEADER, 0);

// 创建批处理cURL句柄
$mh = curl_multi_init();

// 增加2个句柄
curl_multi_add_handle($mh,$ch1);
curl_multi_add_handle($mh,$ch2);

$active = null;
// 执行批处理句柄
do {
    $mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);

while ($active && $mrc == CURLM_OK) {
    if (curl_multi_select($mh) != -1) {
        do {
            $mrc = curl_multi_exec($mh, $active);
        } while ($mrc == CURLM_CALL_MULTI_PERFORM);
    }
}

// 读取数据
$content1 = curl_multi_getcontent($ch1);
$content2 = curl_multi_getcontent($ch2);
// 关闭全部句柄
curl_multi_remove_handle($mh, $ch1);
curl_multi_remove_handle($mh, $ch2);
curl_multi_close($mh);

?>
复制代码

 

疑惑和思考:

  1.批量请求的原理

    php没有多线程,借助操作系统的多线程来实现(网上看到的)

  2.批量请求以操作系统的多线程机制为基础,理论上会大量消耗机器的cpu

    a.开发机上验证,大批量请求时,cpu调用确实会急剧升高

    b.对比 线上前端机的负载情况 和 页面响应时间拉长 的时间点,发现线上前端机负载并无明显升高(维持在0.3左右)

    c.网上看到有人在curl_multi_select()返回值不是-1的时候(表示有请求没有处理完成)usleep(100),休眠以避免不对读处理状态而造成的不必要cpu压力。

  notice:

    2中的a、b有所矛盾,暂未找到根本原因

    2中的c没有经过实践测试

 

欢迎阅者批评指正

 

笔者:一般的小帅

 

PHPcURL 库提供了一个 `curl_multi_*` 系列函数,可以实现批量处理多个 cURL 请求。使用 `curl_multi_*` 函数,可以实现在一个 PHP 脚本中同时发送多个 cURL 请求,而不需要等待每个请求的响应。 使用 `curl_multi_*` 函数的步骤如下: 1. 创建多个 cURL 句柄,设置每个句柄的选项。 2. 创建一个 cURL 多个句柄的管理器。 3. 将多个 cURL 句柄添加到管理器中。 4. 执行多个 cURL 句柄,等待所有请求的响应。 5. 处理每个请求的响应。 下面是一个示例代码: ``` <?php // 创建多个 cURL 句柄 $urls = [ 'http://www.example.com', 'http://www.example.net', 'http://www.example.org', ]; $curl_handlers = []; foreach ($urls as $url) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $curl_handlers[] = $ch; } // 创建一个 cURL 多个句柄的管理器 $mh = curl_multi_init(); // 将多个 cURL 句柄添加到管理器中 foreach ($curl_handlers as $ch) { curl_multi_add_handle($mh, $ch); } // 执行多个 cURL 句柄,等待所有请求的响应 $active = null; do { $mrc = curl_multi_exec($mh, $active); } while ($mrc == CURLM_CALL_MULTI_PERFORM); while ($active && $mrc == CURLM_OK) { if (curl_multi_select($mh) == -1) { usleep(100); } do { $mrc = curl_multi_exec($mh, $active); } while ($mrc == CURLM_CALL_MULTI_PERFORM); } // 处理每个请求的响应 foreach ($curl_handlers as $ch) { $output = curl_multi_getcontent($ch); curl_multi_remove_handle($mh, $ch); curl_close($ch); // 处理响应 echo $output; } curl_multi_close($mh); ``` 上述代码将创建多个 cURL 句柄,将它们添加到一个 cURL 多个句柄的管理器中,然后使用 `curl_multi_exec()` 函数并通过 `curl_multi_select()` 函数等待所有请求的响应。最后,使用 `curl_multi_getcontent()` 函数获取每个请求的响应,并处理它们。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值