nodejs爬虫
ee
使用cheerio模块来爬取
安装cherrio模块 npm i cheerio --save
爬取原理就是利用http请求来获取到整个请求页面的数据,然后再利用
cheerio来包装成jQuery对象的形式, 就 是 j q 的 就是jq的 就是jq的对象,可以通过jq支持的选择
器来选择自己想要的数据,整个爬取过程大概就是这
样,(当然这是比较简单的,可以满足一些小要求)
##代码展示
const http = require('http');
const https = require('https')
const fs = require('fs');
const cheerio = require('cheerio');
//链接这里可以放允许爬取的链接,有些页面爬取不了的
http.get('http://huayu.zongheng.com/showchapter/952138.html', function(req, res) {
var html = '';
req.on('data', function(data) {
html += data;
})
req.on('end', function() {
//爬取完毕装载到,并返回装载后的对象
//调用处理函数来处理装载的数据
var reg = /http.+.html/g;
//将html装载到cherrio对象上
const $ = cheerio.load(html, {decodeEntities: false})
console.log($.html())
})
})
复制这个程序可以直接运行,可以获取到页面数据
注:这个例子只是非常简单的获取页面,可以让你先了解nodejs的爬虫,下一篇文章将会是如何利用nodejs去爬取我们要的数据,喜欢的朋友可以关注一下哦,以后会多发一些自己的学习心得出来和大家分享