用Python爬取顶点小说网站中的《庆余年》思路参考——记一次不成功的抓取

最新推荐文章于 2025-04-02 16:02:11 发布

Rustone

最新推荐文章于 2025-04-02 16:02:11 发布

阅读量1.8k

点赞数 1

分类专栏： Python3 文章标签： python 爬虫小说

本文链接：https://blog.csdn.net/m0_37360684/article/details/103827753

版权

本文介绍了尝试使用Python爬虫抓取顶点小说网《庆余年》的思路和步骤，包括获取章节URL和内容的方法，以及遇到的问题和可能的解决方案，如模拟登录和使用代理IP。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目的：用python爬虫抓取顶点小说网站中的《庆余年》小说内容个，并保存为txt格式文件。

环境：Win10系统，Anaconda3 + PyCharm, python3.6版本

思路：（1）先在整个目录页，下载每一章节对应的URL和标题；（2）针对每一章的URL，下载对应的内容，将内容按照顺序存在TXT文件中。

步骤：

1.顶点小说中《庆余年》的主页网址：

https://www.booktxt.net/1_1902/

2. 在主页中，【楔子一块黑布】处点击鼠标右键，选择【检查】，步骤如上图所示，结果如下图：

可以看到，所有的章节标题和对应的超链接，都在<a href="***".html>***</a>中， href是对应的部分url，文本是题目。

3.打开【楔子一块黑布】章节，发现《庆余年》主页的网址 https://www.booktxt.net/1_1902/ + <a>中的 href部分的url组合起来就是本节的真正网址；

4.在本节内容任意一处单击鼠标右键，选择【检查】，步骤如上图所示，结果如下图所示：

可以发现内容在<div id="content">***</div>中，注意其中有空行。

5.初步代码参考，先打印出每个章节对应的网址和题目：

import requests
from bs4 import BeautifulSoup
import os
import time
import random
import re


all_url = 'https://www.booktxt.net/1_1902/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}

start_html = requests.get(url=all_url, headers=headers)

# print(start_html.status_code)  #200
# print(type(start_html))        #<class 'requests.models.Response'>
# print(start

最低0.47元/天解锁文章