Node.js 实现爬虫（3） —— 保存爬取的数据

最新推荐文章于 2025-05-09 14:42:41 发布

hard_hpp

最新推荐文章于 2025-05-09 14:42:41 发布

阅读量3.2k

点赞数 1

分类专栏： node-js 文章标签： node.js 爬虫

本文链接：https://blog.csdn.net/hard_hpp/article/details/77248298

版权

本文介绍如何使用Node.js实现爬虫并将大量数据保存到文件。当文件不存在时，程序会创建新文件，若文件已存在，则覆盖原有内容。通过将爬取的数据写入文件，方便后续查看和分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

保存爬取的数据

前面，我们已经写了爬虫程序并在控制台输出，但是，有时爬取的数据量过大，控制台查看不方便，所以，我们可以将数据保存到文件

//引入文件模块
var fs = require("fs") 

//保存文件
fs.writeFile(filename,fileStr,function (err) {
   
    if (err) throw err 
    console.log("File Saved !")
})

fs.writeFile(filename，fileStr,callback)

当filename不存在时，会新建文件；否则，重新写文件
filename可以是相对路径，也可以是绝对路径

下面，将之前的多页面的程序中添加保存文件的功能
完整的程序如下：

var fs = require("fs") ;
var http = require('http')
var cheerio = require('cheerio')
var Promise = require('bluebird')
var url = 'http://blog.csdn.net/ranking.html'

//过滤排行榜页面中“博客周排行”模块的url
function filterRankUrl(html){
   
    var $ = cheerio.load(html)     //加载html内容

    var blogRank = $('.rankList .ranking').eq(1).find('li')

最低0.47元/天解锁文章