基于Node.js开发爬虫工具。 ( puppeteer 与 egg.js 配合使用)

本文介绍了如何利用Google Chrome的无头浏览器库Puppeteer和阿里团队的Egg.js框架来开发爬虫工具。首先,简述了Puppeteer和Egg.js的基本概念和用途。接着,详细阐述了开发过程,包括环境配置、项目初始化、下载依赖和编写代码。通过示例展示了如何抓取特定网站的IP列表数据,并将结果保存到本地。最后,作者分享了项目的GitHub仓库,鼓励读者参与讨论和提出建议。
摘要由CSDN通过智能技术生成

突然想抓取个ip代理,现在Node这么火,为什么不用他写个爬虫呢。
那么,开始吧!

技术:

  • puppeteer :
    • 由Google团队开发,该工具可以理解成我们日常使用的Chrome的无界面版本以及对其进行操控的js接口套装。
    • 常见用法:单元测试,性能测试,爬虫。
    • 项目地址:https://github.com/GoogleChrome/puppeteer
  • Egg.js
    • 由阿里团队开发,其宗旨是:为企业级框架和应用而生,希望由 Egg.js 孕育出更多上层框架,帮助开发团队和开发人员降低开发和维护成本。
    • 项目地址:https://github.com/eggjs/egg/

安装:

环境 :puppeteer本身依赖6.4以上的Node,为了配合使用async/await,推荐使用7.6版本以上的Node。

1. 初始化项目:

使用egg.js初始话项目:

$ npm i egg-init -g
$ egg-init egg-example --type=simple
$ cd egg-example
$ npm i

启动项目:

$ npm run dev
$ open localhost:7001

更多操作查看官方文档

2. 下载依赖:

安装puppeteer:

$ npm i puppeteer -S

3. 编写:

egg.js 中 对于 router controller service 的使用大家可以去文档中看一下,很简单,这里主要讲解这么使用puppeteer抓取页面。

简单介绍一下puppeteer使用:

const puppeteer = require('puppeteer');
(async () => {
   
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://www.example.com');
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

unstorm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值