爬虫
文章平均质量分 73
zhanle_huang
喜欢编程、对编程有着自己的热情,目前是前端开发为主,平时喜欢研究一些自己觉得好玩的代码
展开
-
基于puppeteer的动态爬虫,爬取SPA项目页面
静态爬取数据会快很多,动态爬取速度会慢,因为需要打开浏览器,然后再等待页面加载完成,需要时间去渲染,因此会比静态的慢一些,但是可以获取比较复杂的页面,也可以以此来做服务端渲染。原创 2023-01-31 09:12:25 · 1063 阅读 · 0 评论 -
nodejs+cheerio自动爬取小说内容并写入文件小demo
nodejs爬取小说爬取小说获取书籍链接代码段获取目录链接获取内容以下是完整的代码爬取小说这次分享一个爬取一个网站小说的demo,刚开始学习爬虫的朋友也可以参考思路去编写自己的程序,爬取思路——首先,找到你要爬取的网站的链接,然后获取书籍的链接;二、每本书都有一个自己的链接;三、然后该书的链接的内容会包含目录列表链接四、我们便可以借用书籍的链接去获取目录链接五、然后根据目录链接去获取目录内容,然后讲内容爬取出来并写入文件中就完成爬取了基本就是这五部就可以完成爬取任务了获取书籍链接代码段v原创 2020-09-03 19:56:07 · 1051 阅读 · 0 评论 -
nodejs爬取小说内容
nodejs爬取小说内容数据紧接上一篇爬虫的文章注:这一篇文章只是单页面爬取,如果是向做到多爬取将会复杂一些,下一篇将会讲解,目前时间有点忙,还没写,如果有小伙伴着急想知道下一篇的方式,可以评论或者留言都行,我会告知,有不解或者说的不对的地方都可以评论说明紧接上一篇爬虫的文章经过上一篇文章的例子,我们都了解了爬虫得到的是什么数据了,就是我们请求的html文件数据,然后利用cherrio来转化成jq方式来操作。接下来就分析一下如何去分析,然后获取到我们想要的数据打开这个链接链接: 目标网站.然后打开原创 2020-08-23 10:49:11 · 1380 阅读 · 1 评论 -
nodejs爬虫之cheerio模块实现
nodejs爬虫使用cherrio模块来爬取使用cherrio模块来爬取安装cherrio模块 npm i cherrio --save爬取原理就是利用http请求来获取到整个请求页面的数据,然后再利用cherrio来包装成jQuery对象的形式,就是jq的就是jq的就是jq的对象,可以通过jq支持的选择器来选择自己想要的数据,整个爬取过程大概就是这样,(当然这是比较简单的,可以满足一些小要求)##代码展示const http = require('http');const https =原创 2020-08-21 19:55:24 · 1199 阅读 · 0 评论