网络小说更好看？python爬取十四万条书籍信息告诉你

2401_84009065

于 2024-04-16 16:56:37 发布

阅读量355

点赞数 5

分类专栏：程序员文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84009065/article/details/137831697

版权

程序员专栏收录该内容

270 篇文章

订阅专栏

python免费学习资料以及群交流解答点击即可加入

项目完整代码 github地址点击即可进入

因为最近微信读书出了网页版，加上自己也在闲暇的时候看了两本书，不禁好奇什么样的书更受欢迎，哪位作者又更受读者喜欢呢？话不多说，爬一下就能有个了解了。

页面分析

首先打开微信读书：https://weread.qq.com/，往下拉之后可以看到有榜单推荐，而且显示总共有25个榜单，有的榜单只有几百本，有的榜单却有几万本书。

在这里插入图片描述

打开“文学艺术榜”，可以看到一页显示了20条书本信息，下拉之后很容易就能发现这些书本信息是通过 AJAX 来加载的。

在这里插入图片描述

更关键的是，要获取这些书籍信息，只需要得到分类 ID 和参数 maxIndex。不过测试发现，每个分类只会返回50个页面的内容，也就是最多一千条书本信息。那么，如果只有这25个类别的榜单，能得到的数据还是有点少的，所以要怎么得到更多的数据呢？

细心的人可以发现右侧还能选择类别！如下图：

在这里插入图片描述

不过，查看这些元素发现里面是没有显示 URL 的，如下图：

在这里插入图片描述

但是这也不表示没有办法了，全局搜索一下就能找到了，如下图：

在这里插入图片描述

CategoryId 就是这个分类的 ID，也就是 URL 中“bookListInCategory/”后面的内容。至于 maxIndex，可以先设为0，然后发送请求得到这一分类的书本总数“totalCount”，然后根据这个书本总数是否超过一千来设置页数，就能得到这一分类下能够爬取到的所有 URL 了。

爬取步骤

前面经过分析已经知道只要拿到书本分类 ID，就能发送请求得到书本总数，也就能构造该分类下的所有页面的 URL 了。那要怎么得到所有分类呢？前面全局搜索的时候已经搜到了书本分类的 CategoryId 等信息，如下图：

在这里插入图片描述

所以只需先请求页面然后用正则匹配 CategoryId 就行了！然后对每个分类发送一次请求，用于获取书本总数，并构造这一分类下的所有 URL。这一部分代码如下：

1 def prepare(base_url=“https://weread.qq.com/web/category/1700000”) -> list:

2 “”"

3 prepare for crawler

4 :param base_url: weread base url

5 :return: page url list

6 “”"

7 def request(url) -> list:

8 “”"

9 request function

10 :param url: url

11 :return: page url list

12 “”"

13 page_urls = []

14 try:

15 res = requests.get(url=url, headers=headers)

16 if res.status_code == 200:

17 count = res.json()[“totalCount”]

18 cnt = 50 if count >= 1000 else count // 20

19 page_urls = [url + “?maxIndex={}”.format(i * 20) for i in range(cnt)]

20 else:

21 logging.error(“Error request!”)

22 except Exception as e:

23 logging.error(e)

24 finally:

25 return page_urls

26

27 resp = requests.get(url=base_url, headers=headers)

28 # check status code

29 if resp.status_code == 200:
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

基本涵盖了95%以上前端开发知识点，真正体系化！**

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。