python爬取笔趣阁小说(附源码)

python爬取笔趣阁小说


前言

通过学习爬取电子书,了解python爬虫的魅力!


一、获取小说目录结构

获取目录连接

小说目录连接
可知目录连接:

url = “http://www.paoshuzw.com/13/13959/”

请求代码

import requests

url = "http://www.paoshuzw.com/13/13959/"

res = requests.get(url=url)

with open('圣墟.html','a',encoding='utf-8') as f:
    f.write(res.content.decode('utf-8'))

代码注解:

requests.get(url=url) #请求当前连接

res.content.decode(‘utf-8’) #防止中文字符乱码

解析目录

小说目录连接布局
目录格式
可知

  • 章节连接并不是完整的
  • 连接并不是自然增长的
  • 所以必须获取所有章节连接

点开任意章节

点开任意章节
可知

url:www.paoshuzw.com+/13/13959/5939025.html #章节连接格式

XPath

XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。

XPath基本操作:https://blog.csdn.net/Yuyu920716/article/details/113108444

tqdm

Tqdm在阿拉伯语表示进步,在西班牙语中表示我非常爱你。是一个快速,可扩展的Python进度条,可以在Python长循环中添加一个进度提示信息,用户只需要封装任意的迭代器tqdm(iterator)即可完成进度条。

tqdm基本操作:

  • 8
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值