nodejs爬虫之cheerio模块实现

9 篇文章 0 订阅
4 篇文章 1 订阅

ee

使用cheerio模块来爬取

安装cherrio模块 npm i cheerio --save

爬取原理就是利用http请求来获取到整个请求页面的数据,然后再利用

cheerio来包装成jQuery对象的形式, 就 是 j q 的 就是jq的 jq对象,可以通过jq支持的选择

器来选择自己想要的数据,整个爬取过程大概就是这

样,(当然这是比较简单的,可以满足一些小要求)

##代码展示

const http = require('http');
const https = require('https')
const fs = require('fs');
const cheerio = require('cheerio');
//链接这里可以放允许爬取的链接,有些页面爬取不了的
http.get('http://huayu.zongheng.com/showchapter/952138.html', function(req, res) {
		 	var html = '';
		 	req.on('data', function(data) {
		 		html += data;
		 	})
		 	req.on('end', function() {
				//爬取完毕装载到,并返回装载后的对象
				//调用处理函数来处理装载的数据
				var reg = /http.+.html/g;
				//将html装载到cherrio对象上
				 const $ = cheerio.load(html, {decodeEntities: false})
				 	 console.log($.html())
			})
})

复制这个程序可以直接运行,可以获取到页面数据

注:这个例子只是非常简单的获取页面,可以让你先了解nodejs的爬虫,下一篇文章将会是如何利用nodejs去爬取我们要的数据,喜欢的朋友可以关注一下哦,以后会多发一些自己的学习心得出来和大家分享

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值