爬取《西游记》小说所有章节内容

本文详细介绍了如何通过Python爬虫技术从百度小说网获取《西游记》的所有章节内容。首先观察网页源代码,然后利用控制台分析数据请求逻辑,找出获取章节标题和内容的URL。通过同步请求获取章节cid,再异步下载各章节内容,最终将数据存储为CSV并进行词云和曲线图的数据可视化。
摘要由CSDN通过智能技术生成

1.首先在百度小说网找到《西游记》

2.查看网页源代码

发现网页源代码里没有我们需要的“小说内容”,说明我们现在看到的网页都是通过异步操作返回的数据(二次加载)

3.打开控制台

点击“Network”工具栏,选择“Fetch/XHR”,再点击网页“全部章节”栏下的“查看全部”,观察控制台数据包变化,返回了一条数据包,并在Preview标签下的data/novel/item下可以看到网页中显示的所有章节的标题。于是 我们从Headers标签下General中记录我们需要的第一个URL

https://dushu.baidu.com/api/pc/getCatalog?data={“book_id”:“4306063500”}

通过这个URL我们可以得到所有章节的名称和cid

4.点击“第一回”再次观察控制台

可以发现点击“第一回”后,XHR标签下又新增了三个链接。通过观察数据标签,可以发现在最后一个链接中novel/content下包含了小说的具体内容。于是我们找到了第二个URL

https://dushu.baidu.com/api/pc/getChapterContent?data={"book_id":"4306063500","cid":"4306063500|11348571","need_bookinfo":1}

通过这个URL我们可以得到章节内部的具体内容。

5.分析逻辑

于是我们可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值