nodejs爬取小说内容数据
紧接上一篇爬虫的文章
经过上一篇文章的例子,我们都了解了爬虫得到的是什么数据了,就是我们请求的html文件数据,然后利用cheerio来转化成jq方式来操作。
接下来就分析一下如何去分析,然后获取到我们想要的数据
打开这个链接链接: 目标网站.
然后打开控制台就选中我们的目标地方,就可以看到html结构了
例子如下:
const http = require('http');
const https = require('https')
const fs = require('fs');
const cheerio = require('cheerio');
http.get('http://huayu.zongheng.com/chapter/952138/60478256.html', function(req, res) {
var html = '';
req.on('data', function(data) {
html += data;
})
req.on('end', function() {
//爬取完毕装载到,并返回装载后的对象
//调用处理函数来处理装载的数据
var reg = /http.+.html/g;
const $ = cheerio.load(html, {decodeEntities: false})
//获取$(".reader_box .content")元素的html内容
var _c = $(".reader_box .content").html();
console.log(_c);
})
})
输入如下:
这便是爬取到目标网站中我们想要的数据了,如果想要爬取其他数据,按照爬取小说内容的方式便可以实现