python爬虫,使用parsel爬取有时候不能正则的网站

当requests无法正确抓取所需HTML时,可以借助Python的parsel库进行解析。本文介绍如何安装和使用parsel,通过实例展示了如何从某小说网站获取章节目录和小说名称,强调了parsel在处理正则无法解决的网页结构时的便利性。
摘要由CSDN通过智能技术生成

上一篇文章介绍了使用requests爬取某网站的小说,但是有时候很多网站不知道因为什么原因(笔者水平有限真的不知道为什么正则不出来555)不能够爬取到自己想要的html,这时候我们就需要用到解析神器parsel模块,这是python的第三方库,使用的时候还得安装,小伙伴们需要记得。

笔者使用的是PyCharm,需要安装新的模块的时候可以使用pip,也可以这样操作:

在这里插入图片描述
点击这里,看到有设置选项,点进去:
在这里插入图片描述
然后就可以看到自己已经安装的了模块,看右上角有一个 ‘+’ 的符号,这是添加,‘-’ 是删除,我们点击’+'号,然后在里面搜索parsel,在这里插入图片描述
这样我们就看到目前最新版本的parsel,还有各种信息等等,我们点击install package,就直接安装了这个模块,之后我们就能直接调用了哦。

之前在操作爬虫的时候我经常遇到这种情况:
在这里插入图片描述
明明网页端源码里有我们想要的小说文字,但是就是,使用requests,get不到这些东西,总是到有小说文字的时候中间就没了:在这里插入图片描述
诺,中间就是少了很多的我们想要的文章,这时候我们再使用正则肯定就正则不出来,然后我查了好久,才找到parsel这个解析神器,接下来就是敲代码,解释的时间啦!
这次我们换一个正常正则不到的网站,这也是大多数网站是这样的。某趣阁小说网站
url = ‘http://www.xbiquge.la’

#首先我们还是先指定模块什么的
import requests
import parsel
import re

然后我们就需要get这个小数网站,随便选一本小说,作为url,然后对它进行parsel操作:

headers = {
   
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' 
               '(KHTML, like Gecko) Chrome/75.0.3770.142 '
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值