php爬虫教程（五）提高爬虫抓取效率

最新推荐文章于 2024-07-11 09:25:41 发布

置顶

__DEBUG__

最新推荐文章于 2024-07-11 09:25:41 发布

阅读量4.9k

点赞数 1

分类专栏： php 文章标签： php 脚本爬虫

本文链接：https://blog.csdn.net/u014017080/article/details/52369761

版权

本文介绍了在PHP中如何通过多进程技术来提高爬虫的抓取效率，特别是在处理大规模数据如200w图片库时。通过调用子进程并发抓取，每个分类对应一个独立进程，显著提升了工作效率。文章提供了相关参考链接，并鼓励读者根据实际情况发挥创造力进行实现。

摘要由CSDN通过智能技术生成

之前有一次抓取x浪图片库的时候200w图片跑了一整天的时间，

后来采取多进程抓取提高了很高的效率。

多进程的实现可以参考这个方法：

http://blog.csdn.net/u014017080/article/details/46925725

主进程文件－－调用子进程每一个分类对应单独的一个进程并发抓取

<?php
set_time_limit(0);
$arr = array(
//      7,  //生活百科
//      6,  //经典语录
//      3,  //幽默搞笑
//      25, //创意无限
//      23, //萌宠动物
//      20, //心里测试
//      8,  //时尚潮流
//      68, //内涵漫画
//      4,  //星座物语
//      22, //时尚家居
//      17, //小说故事
//      5,  //美食工厂
 
        24,  //生活百科
        19,  //经典语录
        88,  //幽默搞笑
        57, //创意无限
        1, //萌宠动物
        2, //心里测试
        43,  //时尚潮流
        32, //内涵漫画
        97,  //星座物语
 
        );
foreach($arr as $v){
    //echo '/usr/local/php/bin/php get_wbcontent_ppcc.php '.$v.' > /dev/null 2>&1 &'."\n";
    exec('/usr/local/php/bin/php get_wbcontent_ppcc.php '.$v.' > /dev/null 2>&1 &');