python使用requests和lxml爬取晋江小说的免费章节

本文介绍了如何使用Python的requests和lxml库来抓取晋江文学城的小说免费章节。通过Pycharm安装库,处理xpath,选择合适的文本编码,避免获取空内容和程序报错。虽然能获取章节标题,但链接获取有限,且部分文本可能无法被其他软件识别。完整代码已提供,但存在一些限制和问题。
摘要由CSDN通过智能技术生成

1、安装库

使用Pycharm进行编程,安装requests和lxml库,只能获取免费章节,使用edge浏览器打开小说网页(谷歌浏览器也可以)

2、注意

1)去除xpath中的tbody;

2)选择合适的文本编码方式

3、步骤

1)打开小说,右键点击“检查”

                                                              图3 检查网页

2)选择要提取的标题,查找相应的xpath,获取文本和相应链接

                                               图4.1使用选择元素的按钮



                                                         图4.2复制对应的xpath

3)对xpath进行处理,xpath里面有很多信息,我们只需要其中的文本和链接

# 原xpath //*[@id="oneboolt"]/tbody/tr/td[2]/span/div[1]/a/      获取文本在其后面添加/text(),获取链接添加/@href
titles = selector.xpath('//*[@id="oneboolt"]/tbody/tr/td[2]/span/div[1]/a/text()')    # 从主页获取标题,也可以从单章文本获取标题
# //*[@id="oneboolt"]/tbody/tr[5]/td[2]/span/div[1]/a  上下比较将tr[5]改为tr即可获得所有标题
textlinks = selector.xpath('//*[@id=&#
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值