爬虫实战——起点中文网小说的爬取-CSDN博客

本文介绍了如何爬取起点中文网的小说《大千界域》，通过分析页面结构和网络请求，发现需要拦截xhr请求获取json数据，从而获得章节信息。通过截取json对象中的卷id，结合固定的url模板，可以爬取整本小说的章节内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　首先打开起点中文网，网址为：https://www.qidian.com/

　　本次实战目标是爬取一本名叫《大千界域》的小说，本次实战仅供交流学习，支持作者，请上起点中文网订阅观看。

　　我们首先找到该小说的章节信息页面，网址为：https://book.qidian.com/info/3144877#Catalog

　　点击检查，获取页面的html信息，我发现每一章都对应一个url链接，故我们只要得到本页面html信息，然后通过Beautifulsoup，re等工具，就可将所有章节的url全部得到存成一个url列表然后挨个访问便可获取到所有章节内容，本次爬虫也就大功告成了！

　　按照我的想法，我用如下代码获取了页面html，并在后端输出显示，结果发现返回的html信息不全，包含章节链接的body标签没有被爬取到，就算补全了headers信息，还是无法获取到body标签里的内容，看来起点对反爬做的措施不错嘛，这条道走不通，咱们换一条。

import requests

def get():
    url = 'https://book.qidian.com/info/3144877#Catalog'
    req = requests.get(url)
    print(req.text)

if __name__ == '__main__':
    get()

既然这个页面是动态加载的，故可能应用ajax与后端数据库进行了数据交互，然后渲染到了页面上，我们只需拦截这次交互请求，获取到交互的数据即可。

打开网页https://book.qidian.com/info/3144877#Catalog，再次右键点击检查即审查元素，因为是要找到数据交互，故点击network里的XHR请求，精确捕获XHR对象，我们发现一个url为https://book.qidian.com/ajax/book/category?_csrfToken=1iiVodIPe2qL9Z53jFDIcXlmVghqnB6jSwPP5XKF&bookId=3144877的请求返回的response是一个包含所有卷id和章节id的json对象，这就是我们要寻找的交互数据。

通过如下代码，便可获取到该json对象

import requests
import random

def random_user_agent():
    list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36