python爬上去飞卢_pyhon3爬虫爬取飞卢小说网小说

想看小说,不想看花里胡哨的网页,想着爬下来存个txt,顺便练习一下爬虫。

随便先找了个看起来格式比较好的小说网站《飞卢小说网》做练习样本,顺便记录一下练习成果。

ps:未登录,不能爬取VIP章节部分

目录

使用工具

网页结构分析

爬虫实现

结果展示

使用工具

python3  ,beaufulsoup库,request库

网页结构分析

随便在网站找了个小说,分析网页结构:

https://b.faloo.com/f/479986.html  以此页为例,可以发现,目录页全部整齐的在后面加上了章数https://b.faloo.com/p/479986/4.html

这里不用更换网址的方法,选用  找到存放目录的a标签,逐一获取链接的方式 练习。

首先,分析目录页结构,对元素右键进行检查

可以发现,目录链接全部存放在table里,很整齐的在类名为td_0的td中;

接着分析每节内容,发现小说内容全部储存在 id=content 的div中:

爬虫实现

首先需要获取这本小说所有的章节链接,从网页结构可以发现,链接全部存储再table的td中。

用get_download_url方法循环获取table中tr的内容,再使用BeautifulSoup的find方法挨个提取td中的a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值