写在前面
nodejs爬虫使用的是request+cheerio+fs,会输出到本地,所以目前是单线程效率,比较慢1 page/s
可以看到爬的是51CTO的查询页面,用于后续的数据监控和分析。
cheerio介绍:https://www.npmjs.com/package/cheerio
request介绍:https://www.npmjs.com/package/request
fs介绍:http://nodejs.cn/api/fs.html
创建request工具页getHtml.js
const req = require('request');
var cheerio = require('cheerio');
//获取页面的源码
function getHtml(url){
return new Promise((resolve,reject)=>{
req.get({
url : url,
headers : {
"user-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36",
"referer":"https://ost.51cto.com/"
},
encoding:"utf-8"
},(err,res,body)=>{
if(err) reject(err);
else resolve(body