爬虫爬取完本小说

最新推荐文章于 2024-08-24 21:58:48 发布

Nolannk

最新推荐文章于 2024-08-24 21:58:48 发布

阅读量1.3k

点赞数

分类专栏： python 文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/joe_niu/article/details/78618877

版权

本文介绍了一个Python爬虫程序，用于从特定网站抓取并下载整本小说。程序通过设置递归深度避免了默认限制，利用正则表达式匹配网页中的标题和内容。匹配到的标题和内容被保存到本地文件，同时程序会自动寻找并爬取下一章的链接，直到小说下载完毕。

摘要由CSDN通过智能技术生成

from urllib.request import urlopen
import re
import sys
# 发现python默认的递归深度是很有限的，大概是900多的样子，当递归深度超过这个值的时候，就会引发这样的一个异常。
# 解决的方式是手工设置递归调用深度，方式为:
sys.setrecursionlimit(1000000)

class StorySpider:
    # 构造方法 运行即加载
    def getHttpResponse(self, url):
        self.url = url
        # 获取网页返回的对象并用read()方法读取成字节形的格式并解码过后为字符串型 解码需与网页编码一致
        self.httpResponse = urlopen(self.url).read().decode('gbk')
        # print(type(self.httpResponse))
        self.mateTitle()

    # 匹配标题函数
    def