【爬虫实战】起点中文网小说的爬取

最新推荐文章于 2025-04-08 21:50:36 发布

青崖林夕

最新推荐文章于 2025-04-08 21:50:36 发布

阅读量1.4w

点赞数 3

分类专栏：爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/u012757419/article/details/103728095

版权

本文介绍了如何使用爬虫技术抓取起点中文网上的小说《大千界域》。首先解析HTML获取章节URL，但由于起点的反爬策略，常规方法无法获取章节内容。接着，通过分析网络请求，找到通过AJAX获取的JSON数据，从中提取卷ID，进而获取每个卷的章节链接，实现完整爬取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　首先打开起点中文网，网址为：https://www.qidian.com/

　　本次实战目标是爬取一本名叫《大千界域》的小说，本次实战仅供交流学习，支持作者，请上起点中文网订阅观看。

　　我们首先找到该小说的章节信息页面，网址为：https://book.qidian.com/info/3144877#Catalog

　　点击检查，获取页面的html信息，我发现每一章都对应一个url链接，故我们只要得到本页面html信息，然后通过Beautifulsoup，re等工具，就可将所有章节的url全部得到存成一个url列表然后挨个访问便可获取到所有章节内容，本次爬虫也就大功告成了！

　　按照我的想法，我用如下代码获取了页面html，并在后端输出显示，结果发现返回的html信息不全，包含章节链接的body标签没有被爬取到，就算补全了headers信息，还是无法获取到body标签里的内容，看来起点对反爬做的措施不错嘛，这条道走不通，咱们换一条。

import requests


def get():

    url = 'https://book.qidian.com/info/3144877#Catalog'

    req = requests.get(url)

    print(req.text)


if __name__ == '__main__':

    get()

既然这个页面是动态加载的，故可能应用ajax与后端数据库进行了数据交互，然后渲染到了页面上，我们只需拦截这次交互请求，获取到交互的数据即可。

打开网页https://book.qidian.com/info/3144877#Catalog，再次右键点击检查即审查元素，因为是要找到数据交互，故点击network里的XHR请求，精确捕获XHR对象，我们发现一个url为https://book.qidian.com/ajax/book/category?_csrfToken=1iiVodIPe2qL9Z53jFDIcXlmVghqnB6jSwPP5XKF&bookId=3144877的请求返回的response是一个包含所有卷id和章节id的json对象，这就是我们要寻找的交互数据。

通过如下代码，便可获取到该json对象

import requests

import random


def random_user_agent():

    list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',

            'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.155 Safari/537.36',

            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (

最低0.47元/天解锁文章