nodejs爬取小说内容

最新推荐文章于 2022-09-09 08:57:16 发布

zhanle_huang

最新推荐文章于 2022-09-09 08:57:16 发布

阅读量1.4k

点赞数 5

分类专栏：爬虫 nodejs 编程类文章标签： node.js javascript css

本文链接：https://blog.csdn.net/ta_huang/article/details/108180121

版权

编程类同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

nodejs

9 篇文章 0 订阅

订阅专栏

爬虫

4 篇文章 1 订阅

订阅专栏

nodejs爬取小说内容数据

- - 紧接上一篇爬虫的文章
- 注：这一篇文章只是单页面爬取，如果是向做到多爬取将会复杂一些，下一篇将会讲解，目前时间有点忙，还没写，如果有小伙伴着急想知道下一篇的方式，可以评论或者留言都行，我会告知，有不解或者说的不对的地方都可以评论说明

紧接上一篇爬虫的文章

经过上一篇文章的例子，我们都了解了爬虫得到的是什么数据了，就是我们请求的html文件数据，然后利用cheerio来转化成jq方式来操作。
接下来就分析一下如何去分析，然后获取到我们想要的数据
打开这个链接链接: 目标网站.
然后打开控制台就选中我们的目标地方，就可以看到html结构了
在这里插入图片描述
例子如下：

const http = require('http');
const https = require('https')
const fs = require('fs');
const cheerio = require('cheerio');

http.get('http://huayu.zongheng.com/chapter/952138/60478256.html', function(req, res) {
		 	var html = '';
		 	req.on('data', function(data) {
		 		html += data;
		 	})
		 	req.on('end', function() {
				//爬取完毕装载到，并返回装载后的对象
				//调用处理函数来处理装载的数据
				var reg = /http.+.html/g;
				 const $ = cheerio.load(html, {decodeEntities: false})
				 //获取$(".reader_box .content")元素的html内容
				var _c = $(".reader_box .content").html();
				console.log(_c);	 
			})
})