Node.js爬虫示例

核心代码

lib/crawler.js,内容:

//目标站地址url请求库
var superagent = require('superagent')
//dom字符串转换库,可以将得到的字符串转为dom对象,用jquery方式操作文本内容
var cheerio = require('cheerio')

exports.get = function (url) {
  return new Promise(function (resolve) {
    superagent.get(url).end(function (err, pres) {
      var $ = cheerio.load(pres.text)
      resolve($)
    })
  })
}

index.js入口文件

//http服务器创建库
var express = require('express')
var app = express()
//解决异步回调问题,在请求多个url时可等待最后一个请求完成再输出
var eventproxy = require('eventproxy')
var ep = new eventproxy()
//jquery处理库
var crawler = require('./lib/crawler.js')

app.get('/', function (req, res) {
	//url为请求站点的地址
 	crawler.get(url).then($ => {
	//$用jquery的语法获取网页中需要的内容
	let html='获取到的内容'
	//输出到浏览器界面
	res.send(html)
   })
})

var server = app.listen(8081, function () {
  var host = server.address().address
  var port = server.address().port
  console.log('应用实例,访问地址为 http://localhost:' + port, host, port)
})

eventproxy 用法:
首先创建一个eventproxy实例

var ep = new eventproxy()
//在完成函数里注册事件:
ep.emit('事件名','参数可选')
//事件完成时回调,count参数为重复事件被执行的次数
ep.after('事件名', count, function ('注册事件时传入的参数') {
	//最终返回
   res.send(html)
})

在项目根目录按住shift键点击鼠标右键打开PowerShell窗口,程序的控制操作都在该窗口进行:
npm命令:
安装superagent:npm install superagent
安装cheerio:npm install cheerio
安装eventproxy:npm install eventproxy

node index.js启动服务,浏览器访问http://localhost:8081界面可输出爬取到的内容

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值