收藏个比较方便的curl方法，同时爬取多个url

最新推荐文章于 2022-08-29 13:42:53 发布

zorozdd

最新推荐文章于 2022-08-29 13:42:53 发布

阅读量1.7k

点赞数

分类专栏： php 文章标签： php curl curl_multi 多进程

php 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

来自 https://www.cnblogs.com/chunguang/p/5895179.html

#多线程并发抓取函数mfetch：

function mfetch($params=array(), $method){

$mh = curl_multi_init(); #初始化一个curl_multi句柄

$handles = array();

foreach($params as $key=>$param){

$ch = curl_init(); #初始化一个curl句柄

$url = $param["url"];

$data = $param["params"];

if(strtolower($method)==="get"){

#根据method参数判断是post还是get方式提交数据

$url = "$url?" . http_build_query( $data ); #get方式

}else{

curl_setopt( $ch, CURLOPT_POSTFIELDS, $data ); #post方式

}

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_HEADER, 0);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);

curl_setopt($ch, CURLOPT_TIMEOUT, 30);

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER["HTTP_USER_AGENT"]);

curl_multi_add_handle($mh, $ch);

$handles[$ch] = $key;

#handles数组用来记录curl句柄对应的key,供后面使用，以保证返回的数据不乱序。

}

$running = null;

$curls = array(); #curl数组用来记录各个curl句柄的返回值

do { #发起curl请求，并循环等等1/100秒，直到引用参数"$running"为0

usleep(10000);

curl_multi_exec($mh, $running);

while( ( $ret = curl_multi_info_read( $mh ) ) !== false ){

#循环读取curl返回，并根据其句柄对应的key一起记录到$curls数组中,保证返回的数据不乱序

$curls[$handles[$ret["handle"]]] = $ret;

}

} while ( $running > 0 );

foreach($curls as $key=>&$val){

$val["content"] = curl_multi_getcontent($val["handle"]);

curl_multi_remove_handle($mh, $val["handle"]); #移除curl句柄

}

curl_multi_close($mh); #关闭curl_multi句柄

ksort($curls);

return $curls;

}

#调用参数：

$keword = "360";

$page = 1;

$params = array();

for($i=0;$i<10;$i++){

$params[$i] = array(

"url"=>"http://www.so.com/s",

"params"=>array('q'=>$keyword,'ie'=>"utf-8",'pn'=>($page-1)*10+$i+1)

);

}

$ret = mfetch($params, 'GET');

print_r($ret);

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
收藏个比较方便的curl方法，同时爬取多个url

来自 https://www.cnblogs.com/chunguang/p/5895179.html#多线程并发抓取函数mfetch：function mfetch($params=array(), $method){ $mh = curl_multi_init(); #初始化一个curl_multi句柄 $handles = array(); foreach($params ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。