python爬虫可以爬付费小说章节吗_从网站上爬取小说遇到的问题,以长安十二时辰为例——Python爬虫...

本文通过实例讲解如何使用Python爬虫获取付费小说的章节名称和链接,涉及XPath、requests和pandas等库的使用。在爬取过程中遇到了网站反爬策略,尝试了设置user-agent和使用sleep函数,但并未实现完整爬取。
摘要由CSDN通过智能技术生成

bf2d1acbecfab4a6f4ee4443f22483d0.png

电视剧更新太慢,就在网上找了下原著看。

一、准备工作

abbaf22a480aedd21c9a8bba411ba7ec.png

就点击了第一个结果。

0ef721e16d4e390c47940583e1b35ea6.png

看到了浏览器地址栏的网址,要养成一个习惯,确认是否是真实的网址。

774772717a515e2ce7788008d0f96e1c.png

点击右键检查(Chrome浏览器),Network—>Doc—>Name(找到网址后面相同的名字)—>Headers—>General:里面的Request URL是和浏览器地址栏的一致,我们也知道了Request Method 的方法是GET了。

e947094531b032e144a4888ecc0ddbb5.png

我们在Jupyter Notebook里新建New一个Python3文件,导入库文件,分别是为了使用xpath(etree),访问网络资源(requests)和处理数据结构(pandas)。

8d6ee1240d046bd6d34b3e6848dbd484.png

把网址赋给一个变量,requests通过GET方法获取网页源代码text,并用etree.Html实例化。实例化的意思就是:人是一个概念,你是人的一个实例化。

二、一个章节的名称和链接地址

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值