php中curl_multi的应用

80 篇文章 0 订阅
24 篇文章 0 订阅

1.简介

相信许多人对php手册中语焉不详的curl_multi一族的函数头疼不已,它们文档少,给的例子 更是简单的让你无从借鉴,我也曾经找了许多网页,都没见一个完整的应用例子。

  • curl_multi_add_handle
  • curl_multi_close
  • curl_multi_exec
  • curl_multi_getcontent
  • curl_multi_info_read
  • curl_multi_init
  • curl_multi_remove_handle
  • curl_multi_select

    一般来说,想到要用这些函数时,目的显然应该是要同时请求多个url,而不是一个一个依次请求,否则不如自己循环去调curl_exec好了。

    步骤总结如下:

    第一步:调用curl_multi_init
    第二步:循环调用curl_multi_add_handle
    这一步需要注意的是,curl_multi_add_handle的第二个参数是由curl_init而来的子handle。
    第三步:持续调用curl_multi_exec
    第四步:根据需要循环调用curl_multi_getcontent获取结果
    第五步:调用curl_multi_remove_handle,并为每个字handle调用curl_close
    第六步:调用curl_multi_close

    2.例子

    $connomains =  array(
    "http://www.cnn.com/",
    "http://www.canada.com/",
    "http://www.yahoo.com/"
    );
    $mh = curl_multi_init();
    foreach ( $connomains  as  $i =>  $url) {
          $conn[ $i]=curl_init( $url);
          curl_setopt( $conn[ $i],CURLOPT_RETURNTRANSFER,1);
          curl_multi_add_handle ( $mh, $conn[ $i]);
    }
    do {  $n=curl_multi_exec( $mh, $active); }  while ( $active);
    foreach ( $connomains  as  $i =>  $url) {
           $res[ $i]=curl_multi_getcontent( $conn[ $i]);
          curl_close( $conn[ $i]);
    }
    print_r( $res);

     整个使用过程差不多就是这样,但是,这个简单代码有个致命弱点,就是在do循环的那段,在整个url请求期间是个死循环,它会轻易导致CPU占用100%。

    现在我们来改进它,这里要用到一个几乎没有任何文档的函数curl_multi_select了,虽然C的curl库对select有说明,但是,php里的接口和用法确与C中有不同。

    把上面do的那段改成下面这样:

                     do  {
                             $mrc = curl_multi_exec( $mh, $active);
                    }  while ( $mrc == CURLM_CALL_MULTI_PERFORM);
                     while ( $active and  $mrc == CURLM_OK) {
                             if (curl_multi_select( $mh) != -1) {
                                     do {
                                             $mrc = curl_multi_exec( $mh$active);
                                    }  while ( $mrc == CURLM_CALL_MULTI_PERFORM);
                            }
                    }

    因为$active要等全部url数据接受完毕才变成false,所以这里用到了curl_multi_exec的返回值判断是否还有数据,当有数据的时候就不停调用curl_multi_exec,暂时没有数据就进入select阶段,新数据一来就可以被唤醒继续执行。这里的好处就是CPU的无谓消耗没有了。

    另外:还有一些细节的地方可能有时候要遇到:

    控制每一个请求的超时时间,在curl_multi_add_handle之前通过curl_setopt去做:
    curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);

    判断是否超时了或者其他错误,在curl_multi_getcontent之前用:curl_error($conn[$i]);

    3.改进

    上述代码显然有缺陷:数据处理都是在所有url请求接收完成以后才进行的,如果某些url处理比较慢显然就耽误了整个队列的处理时间,造成了CUP的闲置和浪费,这显然不是我们想要的结果。但是我们可以这样处理:每当一个url请求完成就开始处理,同时等待其它url请求返回。代码如下:
    $urls = array(
        'http://www.cnblogs.com',
        'http://www.google.com.hk',
        'http://www.baidu.com',
        'http://www.weibo.com',
        'http://www.comsenz.com',
        'http://www.csdn.net',
        'http://www.php.net',
    );
    $opt_arr = array(
        CURLOPT_HEADER => FALSE,
        CURLOPT_TIMEOUT => 5,
        CURLOPT_RETURNTRANSFER => TRUE,
    );
    $multi = curl_multi_init();
    foreach($urls as $key => $url) {
        $ch_arr[$key] = curl_init();//初始化一个curl资源
        $opt_arr[CURLOPT_URL] = $url;//设置url
        curl_setopt_array($ch_arr[$key], $opt_arr);//参数设置
        curl_multi_add_handle($multi, $ch_arr[$key]);//加入句柄队列
    }
    //预定义一个状态变量
    $isrunning = NULL;
    do {
        while(($mrc = curl_multi_exec($multi, $isrunning)) == CURLM_CALL_MULTI_PERFORM);//$isrunning 一个用来判断操作是否仍在执行的标识的引用。
        if($mrc != CURLM_OK)
            break;
        while($done = curl_multi_info_read($multi)) {//成功时返回相关信息的数组,失败时返回FALSE
            $key = array_search($done['handle'], $ch_arr);
            if(curl_getinfo($done['handle'], CURLINFO_HTTP_CODE) == '200') {
                $content = curl_multi_getcontent($done['handle']);
                //deal $content
                echo ++$j,": $urls[$key] : ",strlen($content),"\n";
                curl_multi_remove_handle($multi, $done['handle']);
                curl_close($done['handle']);
            } else {
                echo ++$j,": ",$urls[$key],": ",curl_error($done['handle']),"\n";
            }
        }
    } while($isrunning);
    curl_multi_close($multi);
    上述代码仍然是有缺陷的,不知道聪明的读者您发现没有?
    "Servers will serve multiple pages to the same client up to a certain configure limit. Requesting 5-10 pages from a server would be fine."
    当URL队列很大时(比如1000),这就是一个大并发显然不合理的,参考
    这里,继续改进
    function rolling_curl($urls, $callback, $custom_options = null) {
        $rolling_window = 5;
        $rolling_window = (sizeof($urls) < $rolling_window) ? sizeof($urls) : $rolling_window;
        $master = curl_multi_init();
        $curl_arr = array();
        //设置curl参数
        $std_options = array(CURLOPT_RETURNTRANSFER => true,
        CURLOPT_FOLLOWLOCATION => true,
        CURLOPT_MAXREDIRS => 5);
        $optins = ($custom_options) ? ($std_options + $custom_options) : $std_options;
        //初始化curl资源队列
        $arr_chs = array();
        for ($i = 0; $i < $rolling_window; $i++) {
            $arr_chs[$urls[$i]] = curl_init();
            $options[CURLOPT_URL] = $urls[$i];
            curl_setopt_array($arr_chs[$urls[$i]],$options);
            curl_multi_add_handle($master, $arr_chs[$urls[$i]]);
        }
        do {
            while(($execrun = curl_multi_exec($master, $running)) == CURLM_CALL_MULTI_PERFORM);
            if($execrun != CURLM_OK) {
                break;
            }
            while($done = curl_multi_info_read($master)) {
                $info = curl_getinfo($done['handle']);
                if ($info['http_code'] == 200)  {
                                $content = curl_multi_getcontent($done['handle']);
                    $callback($content);
                                   //新建一个curl资源并加入并发队列
                    if($i < sizeof($urls)) {
                        $arr_chs[$urls[$i]] = curl_init();
                        $options[CURLOPT_URL] = $urls[$i];  // increment i
                        curl_setopt_array($arr_chs[$urls[$i]], $options);
                        curl_multi_add_handle($master, $arr_chs[$urls[$i]]);
                    }
                   curl_multi_remove_handle($master, $done['handle']);
                   curl_close($done['handle']);
                } else {
                 echo curl_errno($done['handle']),":",curl_error($done['handle']),"\n";
                }
            } 
        } while($running);
        curl_multi_close($master);
        return true;
    }

    4.更多参考
    cnblogs:rolling-curl
    rolling-curl
    github:ParallelCurl
    github:rolling-curl


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

anssummer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值