nodejs爬取小说内容

9 篇文章 0 订阅
4 篇文章 1 订阅

紧接上一篇爬虫的文章

经过上一篇文章的例子,我们都了解了爬虫得到的是什么数据了,就是我们请求的html文件数据,然后利用cheerio来转化成jq方式来操作。
接下来就分析一下如何去分析,然后获取到我们想要的数据
打开这个链接链接: 目标网站.
然后打开控制台就选中我们的目标地方,就可以看到html结构了
在这里插入图片描述
例子如下:

const http = require('http');
const https = require('https')
const fs = require('fs');
const cheerio = require('cheerio');

http.get('http://huayu.zongheng.com/chapter/952138/60478256.html', function(req, res) {
		 	var html = '';
		 	req.on('data', function(data) {
		 		html += data;
		 	})
		 	req.on('end', function() {
				//爬取完毕装载到,并返回装载后的对象
				//调用处理函数来处理装载的数据
				var reg = /http.+.html/g;
				 const $ = cheerio.load(html, {decodeEntities: false})
				 //获取$(".reader_box .content")元素的html内容
				var _c = $(".reader_box .content").html();
				console.log(_c);	 
			})
})

输入如下:
在这里插入图片描述
这便是爬取到目标网站中我们想要的数据了,如果想要爬取其他数据,按照爬取小说内容的方式便可以实现

注:这一篇文章只是单页面爬取,如果是向做到多爬取将会复杂一些,下一篇将会讲解,目前时间有点忙,还没写,如果有小伙伴着急想知道下一篇的方式,可以评论或者留言都行,我会告知,有不解或者说的不对的地方都可以评论说明

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值