curl_multi实现准多线程采集

<?php

$urls = array(
   'task1' => "http://localhost/sleep1.php", // sleep(1) 后返回
   'task2' => "http://localhost/sleep2.php", // sleep(2) 后返回 
);

$mh = curl_multi_init();

foreach ($urls as $key => $url) {
    $ch = curl_init($url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_multi_add_handle($mh, $ch);
    // 资源id,用以标识请求
    $id = (int)$ch;
    // 回调函数
    $task[$id]['callback'] = function($content)use($key) {
        echo $content;
        // 请求返回后创建文件,并记录时间
        file_put_contents($key, time());
    };
}

do{
    // 执行
    $status = curl_multi_exec($mh, $active);

    // 避免cpu使用率过高
    if ($active && curl_multi_select($mh) === -1) 
        usleep(250);

    // 等待请求返回
    while($done = curl_multi_info_read($mh)) {
        $id = (int)$done['handle'];
        // 读取返回
        $content = curl_multi_getcontent($done['handle']);
        // 执行回调函数
        $task[$id]['callback']($content);
    }

}while ($status === CURLM_CALL_MULTI_PERFORM || $active);

文件task2的创建时间比task1迟1秒,说明两个请求是并发的。
如果使用curl单线程循环发送请求,必须等待task1请求完毕,执行完回调后,再发送task2请求。
由于curl_multi是多线程的,两个请求同时发送,task1先返回后会马上执行回调函数,同时等待task2返回。如果有多个采集任务,这样可以节省很多时间。

但即使这样也只能实现“准多线程”。

// 将回调函数修改
function($content)use($key) {
        echo $content;
        // 请求返回后创建文件,并记录时间
        file_put_contents($key, time());
        // 加上这句
        if($key == 'task1')
            sleep(3);
    };

task2文件创建时间比task1迟3秒,说明task1的回调函数阻塞了task2回调的执行。

curl_multi在其内部实现了多线程发送请求,但在php代码层面仍然是单线程阻塞的。

curlcurl_multi都是用于进行网络请求的工具。 curl是一个命令行工具,可以通过发送HTTP请求来获取网页内容或发送其他类型的网络请求。它是单线程的,在发送一个请求时会阻塞程序的执行直到请求完成并返回结果。这意味着如果要进行高并发的请求,需要启动多个curl进程来同时发送多个请求,但会造成系统资源的浪费。 而curl_multi是一个C语言库,可以实现多个网络请求的并发执行。它通过将多个curl实例放入一个集合中,并使用事件循环来处理多个请求的同时执行。这样,在发送一个请求时,程序不会阻塞,而是可以继续执行其他任务,提高了并发处理能力。当所有的请求都完成时,可以一次性获取所有的结果。这种方式减少了系统资源的浪费,提高了程序的效率。 使用curl_multi进行高并发需要注意以下几点: 1. 创建curl_multi实例,并向其中添加需要执行的curl请求。 2. 使用curl_multi_exec函数来开始执行多个请求。 3. 使用curl_multi_select函数等待请求完成。 4. 使用curl_multi_getcontent函数获取每个请求的结果。 需要注意的是,高并发的网络请求对服务器压力较大,也容易出现网络超时等问题,因此需要合理控制并发请求数量,使用适当的技术手段,如连接池、负载均衡等,来保证系统的稳定性和性能。 总之,curlcurl_multi都可以用于高并发的网络请求,但curl_multi具有更好的并发性能和资源利用率,适合在程序中进行大量请求的同时执行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值