nodejs爬虫（单线程版，后续补充多线程）

我很靐

已于 2022-11-10 23:30:52 修改

阅读量384

点赞数

分类专栏：爬虫文章标签：爬虫 javascript 前端 node.js

于 2022-11-02 23:57:52 首次发布

本文链接：https://blog.csdn.net/weixin_43520002/article/details/127661855

版权

本文介绍了使用Node.js、request、cheerio和fs库创建的单线程爬虫，目前爬取速度为1 page/s，主要用于51CTO页面的数据抓取和分析。爬虫的实现包括了getHtml.js请求工具页和index.js主页面的创建。

摘要由CSDN通过智能技术生成

写在前面

nodejs爬虫使用的是request+cheerio+fs，会输出到本地，所以目前是单线程效率，比较慢1 page/s
可以看到爬的是51CTO的查询页面，用于后续的数据监控和分析。
cheerio介绍：https://www.npmjs.com/package/cheerio
request介绍：https://www.npmjs.com/package/request
fs介绍：http://nodejs.cn/api/fs.html

创建request工具页getHtml.js

const req = require('request');
var cheerio = require('cheerio');

//获取页面的源码
function getHtml(url){
   
    return new Promise((resolve,reject)=>{
   
        req.get({
   
            url : url,
            headers : {
   
                "user-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36",
                "referer":"https://ost.51cto.com/"
            },
            encoding:"utf-8"
        },(err,res,body)=>{
   
            if(err) reject(err);
            else resolve(body