nodejs 实现异步并发爬虫

PDD工程师

于 2024-05-15 18:56:35 发布

阅读量383

点赞数 3

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/m0_61408947/article/details/138919593

版权

程序员专栏收录该内容

152 篇文章 0 订阅

订阅专栏

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

- - - 前言
修改完代码
后记

前言

前两天实现了简单的爬草榴和今日头条的图片。但是他们都有一个缺点，就是只有当前任务完成以后才会进行下一个任务。所以就在网上搜了一下。

因为之前不是计算机专业的，所以刚开始的时候花了一部分时间来理解异步和并发的概念。知乎上面有一篇解释阻塞非阻塞与异步同步区别的问题回答还不错怎样理解阻塞非阻塞与同步异步的区别？。

自己理解异步和同步就是

同步：需要等待返回结果才能继续做其他事。
异步：不需等待返回结果就能继续进行其他的事。

用在爬虫里面就是同步是一次只爬取一组图片，一组爬完以后才能爬第二组。而异步是同时爬取多组图片，不用等待。因此异步效率比同步快很多。废话不多说，上代码。

修改完代码

具体操作步骤见 nodejs 爬取动态网页以今日头条街拍图片为例。因为只修改了 js 里面的代码，所以这里具体步骤就不再赘述了。

异步并发的模块是用 async.mapLimit来实现的。具体的调用方法如下

async.mapLimit(coll, limit, iteratee, callback opt)

各个参数的意义如下

| 参数 | 类型 | 意义 |

| — | — | — |

| coll | Array / Iterable / object | 要迭代的集合 |

| limie | number | 一次异步操作的最大数量 |

| iteratee | AsyncFunction | 对于 coll 中的每一个item，迭代执行该异步函数。用(item, callback)调用，callback可选 |

| callback | [ function ] | 所有 iteratee函数完成后或发生错误时触发的回调函数。用(err, results)调用。results可以是iteratee 函数完成后触发callback时传递的项 |

把之前的代码规范了一下，把所有 var 都去掉了，常量全都换成了 const，变量用 let。

完整的 js 代码如下

@Author: user
@Date: 2018-05-02 09:46:38
@Last Modified by: user
@Last Modified time: 2018-05-02 09:46:45

const https=require(‘https’);

const fs=require(‘fs’);

const request=require(‘request’);

const async=require(‘async’);

const startPage =0;//开始页

const endPage = 1;//结束页

let page=startPage;

let i=0;

//初始url

const url={

hostname: ‘www.toutiao.com’,

path: ‘/search_content/?offset=’+startPage*20+‘&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery’,

headers: {

‘Content-Type’: ‘text/html’,

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36’,

}

let urlList=[];//存储图片页面地址

//获取图片所在页面

function getUrl(url){

//采用http模块向服务器发起一次get请求

https.get(url,function(res){

var html=‘’;

res.setEncoding(‘binary’);

//监听data事件，每次取一块数据

res.on(‘data’,function(chunk){

html+=chunk;

});

res.on(‘end’,function(){

html=JSON.parse(html);//由于获取到的数据是JSON格式的，所以需要JSON.parse方法浅解析

for(let i of html.data){

var obj ={title:i.title,url:i.article_url};

urlList.push(obj);

}

console.log(urlList.length);

page++;

if(page<=endPage){

let tempUrl=‘https://www.toutiao.com/search_content/?offset=’+page*20+‘&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=3&from=gallery’;

getUrl(tempUrl);

}else{

fetchPage();

}

})

}).on(‘err’,function(err){

console.log(err);

})

}

function fetchPage(){

//异步控制并发

async.mapLimit(urlList,5,function(url,callback){

//截取字符串拼接为图片所在文章地址

url.url=‘https://www.’+url.url.substring(7,19)+‘a’+url.url.substring(25);

https.get(url.url,function(res){

let html=‘’;

res.setEncoding(‘binary’);

res.on(‘data’,function(chunk){

html+=chunk;

})

res.on(‘end’,function(){

var news_item = {

//获取文章的标题

title: url.title,

//i是用来判断获取了多少篇文章

i: i = i + 1,

};

console.log(news_item); //打印信息

//用来匹配script中的图片链接

const reg=/http:\/\/p\d.pstatp.com\/origin(\/pgc-image)?\/[A-Za-z0-9]+/g;

let imageList=html.match(reg);

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

PDD工程师

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
nodejs 实现异步并发爬虫

前两天实现了简单的爬草榴和今日头条的图片。但是他们都有一个缺点，就是只有当前任务完成以后才会进行下一个任务。所以就在网上搜了一下。因为之前不是计算机专业的，所以刚开始的时候花了一部分时间来理解异步和并发的概念。知乎上面有一篇解释阻塞非阻塞与异步同步区别的问题回答还不错怎样理解阻塞非阻塞与同步异步的区别？。自己理解异步和同步就是同步：需要等待返回结果才能继续做其他事。异步：不需等待返回结果就能继续进行其他的事。用在爬虫里面就是同步是一次只爬取一组图片，一组爬完以后才能爬第二组。
复制链接

扫一扫