node-crawler: 前端爬虫库

最新推荐文章于 2025-02-26 00:05:27 发布

柳旖岭

最新推荐文章于 2025-02-26 00:05:27 发布

阅读量521

点赞数 8

本文链接：https://blog.csdn.net/gitblog_00008/article/details/136584792

版权

本文介绍了node-crawler，一个基于Node.js的前端爬虫库，支持HTTP/HTTPS，异步处理，自定义下载器。提供了安装方法、文档链接和社区支持，适合寻找简单爬虫解决方案的开发者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

node-crawler: 前端爬虫库

node-crawlerWeb Crawler/Spider for NodeJS + server-side jQuery ;-)项目地址:https://gitcode.com/gh_mirrors/no/node-crawler

node-crawler 是一个基于 Node.js 的前端爬虫库，它可以让你轻松地抓取网页中的数据。

功能

支持 HTTP/HTTPS 协议。
自动处理重定向和重试。
支持异步回调或 Promise API。
可以设置请求头、Cookie 等选项。
支持自定义下载器（例如 PhantomJS）。

示例

const Crawler = require("node-crawler");

const c = new Crawler({
  // 网页 URL
  uri: "http://www.example.com",
  
  // 回调函数
  callback: function(error, res, done) {
    if (error) {
      console.log(error);
    } else {
      const $ = res.$;
      
      // 提取页面中的数据
      const title = $("title").text();
      console.log(title);
    }
    
    done();
  }
});