上一篇文章介绍了使用requests爬取某网站的小说,但是有时候很多网站不知道因为什么原因(笔者水平有限真的不知道为什么正则不出来555)不能够爬取到自己想要的html,这时候我们就需要用到解析神器parsel模块,这是python的第三方库,使用的时候还得安装,小伙伴们需要记得。
笔者使用的是PyCharm,需要安装新的模块的时候可以使用pip,也可以这样操作:

点击这里,看到有设置选项,点进去:

然后就可以看到自己已经安装的了模块,看右上角有一个 ‘+’ 的符号,这是添加,‘-’ 是删除,我们点击’+'号,然后在里面搜索parsel,
这样我们就看到目前最新版本的parsel,还有各种信息等等,我们点击install package,就直接安装了这个模块,之后我们就能直接调用了哦。
之前在操作爬虫的时候我经常遇到这种情况:

明明网页端源码里有我们想要的小说文字,但是就是,使用requests,get不到这些东西,总是到有小说文字的时候中间就没了:
诺,中间就是少了很多的我们想要的文章,这时候我们再使用正则肯定就正则不出来,然后我查了好久,才找到parsel这个解析神器,接下来就是敲代码,解释的时间啦!
这次我们换一个正常正则不到的网站,这也是大多数网站是这样的。某趣阁小说网站
url = ‘http://www.xbiquge.la’
#首先我们还是先指定模块什么的
import requests
import parsel
import re
然后我们就需要get这个小数网站,随便选一本小说,作为url,然后对它进行parsel操作:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
'(KHTML, like Gecko) Chrome/75.0.3770.142 '

当requests无法正确抓取所需HTML时,可以借助Python的parsel库进行解析。本文介绍如何安装和使用parsel,通过实例展示了如何从某小说网站获取章节目录和小说名称,强调了parsel在处理正则无法解决的网页结构时的便利性。
最低0.47元/天 解锁文章

2431

被折叠的 条评论
为什么被折叠?



