1.简介
相信许多人对php手册中语焉不详的curl_multi一族的函数头疼不已,它们文档少,给的例子 更是简单的让你无从借鉴,我也曾经找了许多网页,都没见一个完整的应用例子。
- curl_multi_add_handle
- curl_multi_close
- curl_multi_exec
- curl_multi_getcontent
- curl_multi_info_read
- curl_multi_init
- curl_multi_remove_handle
- curl_multi_select
一般来说,想到要用这些函数时,目的显然应该是要同时请求多个url,而不是一个一个依次请求,否则不如自己循环去调curl_exec好了。
步骤总结如下:
第一步:调用curl_multi_init第二步:循环调用curl_multi_add_handle这一步需要注意的是,curl_multi_add_handle的第二个参数是由curl_init而来的子handle。第三步:持续调用curl_multi_exec第四步:根据需要循环调用curl_multi_getcontent获取结果第五步:调用curl_multi_remove_handle,并为每个字handle调用curl_close第六步:调用curl_multi_close
2.例子
$connomains = array("http://www.cnn.com/","http://www.canada.com/","http://www.yahoo.com/");$mh = curl_multi_init();foreach ( $connomains as $i => $url) {$conn[ $i]=curl_init( $url);curl_setopt( $conn[ $i],CURLOPT_RETURNTRANSFER,1);curl_multi_add_handle ( $mh, $conn[ $i]);}do { $n=curl_multi_exec( $mh, $active); } while ( $active);foreach ( $connomains as $i => $url) {$res[ $i]=curl_multi_getcontent( $conn[ $i]);curl_close( $conn[ $i]);}print_r( $res);整个使用过程差不多就是这样,但是,这个简单代码有个致命弱点,就是在do循环的那段,在整个url请求期间是个死循环,它会轻易导致CPU占用100%。
现在我们来改进它,这里要用到一个几乎没有任何文档的函数curl_multi_select了,虽然C的curl库对select有说明,但是,php里的接口和用法确与C中有不同。
把上面do的那段改成下面这样:
do {$mrc = curl_multi_exec( $mh, $active);} while ( $mrc == CURLM_CALL_MULTI_PERFORM);while ( $active and $mrc == CURLM_OK) {if (curl_multi_select( $mh) != -1) {do {$mrc = curl_multi_exec( $mh, $active);} while ( $mrc == CURLM_CALL_MULTI_PERFORM);}}因为$active要等全部url数据接受完毕才变成false,所以这里用到了curl_multi_exec的返回值判断是否还有数据,当有数据的时候就不停调用curl_multi_exec,暂时没有数据就进入select阶段,新数据一来就可以被唤醒继续执行。这里的好处就是CPU的无谓消耗没有了。
另外:还有一些细节的地方可能有时候要遇到:
控制每一个请求的超时时间,在curl_multi_add_handle之前通过curl_setopt去做:curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);判断是否超时了或者其他错误,在curl_multi_getcontent之前用:curl_error($conn[$i]);
3.改进
上述代码显然有缺陷:数据处理都是在所有url请求接收完成以后才进行的,如果某些url处理比较慢显然就耽误了整个队列的处理时间,造成了CUP的闲置和浪费,这显然不是我们想要的结果。但是我们可以这样处理:每当一个url请求完成就开始处理,同时等待其它url请求返回。代码如下:
上述代码仍然是有缺陷的,不知道聪明的读者您发现没有?$urls = array( 'http://www.cnblogs.com', 'http://www.google.com.hk', 'http://www.baidu.com', 'http://www.weibo.com', 'http://www.comsenz.com', 'http://www.csdn.net', 'http://www.php.net', ); $opt_arr = array( CURLOPT_HEADER => FALSE, CURLOPT_TIMEOUT => 5, CURLOPT_RETURNTRANSFER => TRUE, ); $multi = curl_multi_init(); foreach($urls as $key => $url) { $ch_arr[$key] = curl_init();//初始化一个curl资源 $opt_arr[CURLOPT_URL] = $url;//设置url curl_setopt_array($ch_arr[$key], $opt_arr);//参数设置 curl_multi_add_handle($multi, $ch_arr[$key]);//加入句柄队列 } //预定义一个状态变量 $isrunning = NULL; do { while(($mrc = curl_multi_exec($multi, $isrunning)) == CURLM_CALL_MULTI_PERFORM);//$isrunning 一个用来判断操作是否仍在执行的标识的引用。 if($mrc != CURLM_OK) break; while($done = curl_multi_info_read($multi)) {//成功时返回相关信息的数组,失败时返回FALSE $key = array_search($done['handle'], $ch_arr); if(curl_getinfo($done['handle'], CURLINFO_HTTP_CODE) == '200') { $content = curl_multi_getcontent($done['handle']); //deal $content echo ++$j,": $urls[$key] : ",strlen($content),"\n"; curl_multi_remove_handle($multi, $done['handle']); curl_close($done['handle']); } else { echo ++$j,": ",$urls[$key],": ",curl_error($done['handle']),"\n"; } } } while($isrunning); curl_multi_close($multi);
"Servers will serve multiple pages to the same client up to a certain configure limit. Requesting 5-10 pages from a server would be fine."
当URL队列很大时(比如1000),这就是一个大并发显然不合理的,参考这里,继续改进
function rolling_curl($urls, $callback, $custom_options = null) { $rolling_window = 5; $rolling_window = (sizeof($urls) < $rolling_window) ? sizeof($urls) : $rolling_window; $master = curl_multi_init(); $curl_arr = array(); //设置curl参数 $std_options = array(CURLOPT_RETURNTRANSFER => true, CURLOPT_FOLLOWLOCATION => true, CURLOPT_MAXREDIRS => 5); $optins = ($custom_options) ? ($std_options + $custom_options) : $std_options; //初始化curl资源队列 $arr_chs = array(); for ($i = 0; $i < $rolling_window; $i++) { $arr_chs[$urls[$i]] = curl_init(); $options[CURLOPT_URL] = $urls[$i]; curl_setopt_array($arr_chs[$urls[$i]],$options); curl_multi_add_handle($master, $arr_chs[$urls[$i]]); } do { while(($execrun = curl_multi_exec($master, $running)) == CURLM_CALL_MULTI_PERFORM); if($execrun != CURLM_OK) { break; } while($done = curl_multi_info_read($master)) { $info = curl_getinfo($done['handle']); if ($info['http_code'] == 200) { $content = curl_multi_getcontent($done['handle']); $callback($content); //新建一个curl资源并加入并发队列 if($i < sizeof($urls)) { $arr_chs[$urls[$i]] = curl_init(); $options[CURLOPT_URL] = $urls[$i]; // increment i curl_setopt_array($arr_chs[$urls[$i]], $options); curl_multi_add_handle($master, $arr_chs[$urls[$i]]); } curl_multi_remove_handle($master, $done['handle']); curl_close($done['handle']); } else { echo curl_errno($done['handle']),":",curl_error($done['handle']),"\n"; } } } while($running); curl_multi_close($master); return true; }
4.更多参考
cnblogs:rolling-curl
rolling-curl
github:ParallelCurl
github:rolling-curl -