python爬取起点中文网小说_爬虫实战——起点中文网小说的爬取

最新推荐文章于 2024-06-19 18:03:00 发布

weixin_39603327

最新推荐文章于 2024-06-19 18:03:00 发布

阅读量2.5k

点赞数

文章标签： python爬取起点中文网小说

本次实战目标是爬取一本名叫《大千界域》的小说，本次实战仅供交流学习，支持作者，请上起点中文网订阅观看。

点击检查，获取页面的html信息，我发现每一章都对应一个url链接，故我们只要得到本页面html信息，然后通过Beautifulsoup，re等工具，就可将所有章节的url全部得到存成一个url列表然后挨个访问便可获取到所有章节内容，本次爬虫也就大功告成了！

按照我的想法，我用如下代码获取了页面html，并在后端输出显示，结果发现返回的html信息不全，包含章节链接的body标签没有被爬取到，就算补全了headers信息，还是无法获取到body标签里的内容，看来起点对反爬做的措施不错嘛，这条道走不通，咱们换一条。

import requests

def get():

url = 'https://book.qidian.com/info/3144877#Catalog'

req = requests.get(url)

print(req.text)

if __name__ == '__main__':

get()

既然这个页面是动态加载的，故可能应用ajax与后端数据库进行了数据交互，然后渲染到了页面上，我们只需拦截这次交互请求，获取到交互的数据即可。

打开网页https://book.qidian.com/info/3144877#Catalog，再次右键点击检查即审查元素，因为是要找到数据交互，故点击network里的XHR请求，精确捕获XHR对象，我们发现一个url为https://book.qidian.com/ajax/book/category?_csrfToken=1iiVodIPe2qL9Z53jFDIcXlmVghqnB6jSwPP5XKF&bookId=3144877的请求返回的response是一个包含所有卷id和章节id的json对象，这就是我们要寻找的交互数据。

通过如下代码，便可获取到该json对象

import requests

import random

def random_user_agent():

list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36',

'Mozilla/5.0 (Windows NT 6.4; WOW64) Appl

最低0.47元/天解锁文章

weixin_39603327

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬取起点中文网小说_爬虫实战——起点中文网小说的爬取

本次实战目标是爬取一本名叫《大千界域》的小说，本次实战仅供交流学习，支持作者，请上起点中文网订阅观看。点击检查，获取页面的html信息，我发现每一章都对应一个url链接，故我们只要得到本页面html信息，然后通过Beautifulsoup，re等工具，就可将所有章节的url全部得到存成一个url列表然后挨个访问便可获取到所有章节内容，本次爬虫也就大功告成了！按照我的想法，我用如下代码获取了页面ht...
复制链接

扫一扫