nodejs爬虫之cheerio模块实现

最新推荐文章于 2024-05-14 08:21:54 发布

zhanle_huang

最新推荐文章于 2024-05-14 08:21:54 发布

阅读量1.1k

点赞数 3

分类专栏：编程类爬虫 nodejs 文章标签： javascript node.js 前端

本文链接：https://blog.csdn.net/ta_huang/article/details/108155340

版权

编程类同时被 3 个专栏收录

37 篇文章 0 订阅

订阅专栏

nodejs

9 篇文章 0 订阅

订阅专栏

爬虫

4 篇文章 1 订阅

订阅专栏

nodejs爬虫

- 使用cheerio模块来爬取

使用cheerio模块来爬取

安装cherrio模块 npm i cheerio --save

爬取原理就是利用http请求来获取到整个请求页面的数据，然后再利用

cheerio来包装成jQuery对象的形式， $就是 j q 的$ 对象，可以通过jq支持的选择

器来选择自己想要的数据，整个爬取过程大概就是这

样，（当然这是比较简单的，可以满足一些小要求）

##代码展示

const http = require('http');
const https = require('https')
const fs = require('fs');
const cheerio = require('cheerio');
//链接这里可以放允许爬取的链接，有些页面爬取不了的
http.get('http://huayu.zongheng.com/showchapter/952138.html', function(req, res) {
		 	var html = '';
		 	req.on('data', function(data) {
		 		html += data;
		 	})
		 	req.on('end', function() {
				//爬取完毕装载到，并返回装载后的对象
				//调用处理函数来处理装载的数据
				var reg = /http.+.html/g;
				//将html装载到cherrio对象上
				 const $ = cheerio.load(html, {decodeEntities: false})
				 	 console.log($.html())
			})
})

复制这个程序可以直接运行，可以获取到页面数据

注：这个例子只是非常简单的获取页面，可以让你先了解nodejs的爬虫，下一篇文章将会是如何利用nodejs去爬取我们要的数据，喜欢的朋友可以关注一下哦，以后会多发一些自己的学习心得出来和大家分享

zhanle_huang

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
nodejs爬虫之cheerio模块实现

nodejs爬虫使用cherrio模块来爬取使用cherrio模块来爬取安装cherrio模块 npm i cherrio --save爬取原理就是利用http请求来获取到整个请求页面的数据，然后再利用cherrio来包装成jQuery对象的形式，就是jq的就是jq的就是jq的对象，可以通过jq支持的选择器来选择自己想要的数据，整个爬取过程大概就是这样，（当然这是比较简单的，可以满足一些小要求）##代码展示const http = require('http');const https =
复制链接

扫一扫