CURL多线程抓取网页

最新推荐文章于 2023-01-04 18:09:52 发布

heyuxuanzee

最新推荐文章于 2023-01-04 18:09:52 发布

阅读量2.3k

点赞数

分类专栏： PHP 文章标签：多线程 delay 测试 url function 网络

本文链接：https://blog.csdn.net/heyuxuanzee/article/details/6032417

版权

PHP 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

网上这类方法似乎太多了。但是总是有一些问题存在。。。

对于多线程抓取，现在有如下几种思路：

1.用apache的多线程特性，让php进行“多进程”操作，就像post本身一样

2.用curl的curl_multi库

对于第一种，我还没尝试，因为这种制造的是伪多线程，也许效率会低很多，而且不好控制。

第二种我尝试了，大概内容是这样的：

define("DELAY_TIME",10000); function multiget($urls) { $multi_handle=curl_multi_init(); foreach ($urls as $i => $url) { $conn[$i]=curl_init($url); curl_setopt($conn[$i], CURLOPT_RETURNTRANSFER, 1); $timeout = 3; curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT, $timeout); curl_setopt ($conn[$i], CURLOPT_FOLLOWLOCATION, 1); curl_multi_add_handle($multi_handle,$conn[$i]); } //下面一大步的目的是为了减少cpu的无谓负担，暂时不明，来自php.net的建议，几乎是固定用法 do { $mrc = curl_multi_exec($multi_handle,$active);//当无数据时或请求暂停时，active=true } while ($mrc == CURLM_CALL_MULTI_PERFORM);//当正在接受数据时 while ($active and $mrc == CURLM_OK) {//当无数据时或请求暂停时，active=true,为了减少cpu的无谓负担,这一步很难明啊 if (curl_multi_select($multi_handle) != -1) { do { $mrc = curl_multi_exec($multi_handle, $active); } while ($mrc == CURLM_CALL_MULTI_PERFORM); } } /* 这是另外一种写法，会使CPU占用率始终100%，增加usleep稍微好点 do { $mrc = curl_multi_exec($multi_handle,$active); usleep (DELAY_TIME); } while ($active); */ //依次提取连接内容 foreach ($urls as $i => $url) { $contents[$i]=curl_multi_getcontent($conn[$i]); curl_multi_remove_handle($multi_handle,$conn[$i]); curl_close($conn[$i]); } return $contents; }

其它的不多说，只说do while的那一块。

那一块的功能就是不停地等待，直到所有线程都结束。

而这种等待因为没有消息机制，所以只能靠不停地判断来消耗时间（方式B），同时导致 CPU的大量占用，然后就发明了那个注释很多的方法。

方式A的优点就是CPU占用小，具体原理不明。。。。

但是经过实际测试，出现如下结果：

测试环境：访问校内网站某信息页面1000个，100M校园网，网络状况良好，每个页面只有几KB

电脑：台式机，phenom x3 720 2.80GHZ*3

如果使用curl单线程的话，耗时24秒；

当使用多线程时，情况如下：

【方式B】

每2网页处理一次:14秒

每10网页处理一次：9.8秒