半懒的状态去写了只小爬虫,想把其他网站的视频爬下来传到其他服务器上,没想到搞了两天,Nodejs的异步机制真是让人又爱又恨。。
异步机制导致的问题
当前遇到nodejs的异步机制最大的问题是跟循环配合一起使用的时候,循环会一下并发所有的函数,举个例子
// 抓取单个视频并添加水印,上传数据库等操作
function getId(id) { ... }
// 抓取id为0 - 4000的视频
for(var id = 0;id <= 4000;++ id) {
getId(id);
}
这样会一下子将几千个请求同时发送出去,造成后面的请求无响应,本地loading过高,服务器还可能会封ip等严重后果。
最终解决方案
最后的解决方案,用的是async.mapLimit
,
var ids = [];
for(var id = 0;id <= 10000;id ++) {
ids.push(id);
}
var async = require('async');
async.mapLimit(ids,1, function(id,spCallback) {
getId(id,spCallback);
});
async的文档
(忍不住想吐槽下nodejs相关的文档,对新手一点也不友好。。或者是我我太弱了!?)
github:@caolan/async
官方文档:http://caolan.github.io/async/
mapLimit接口描述这里