爬虫爬取完本小说

本文介绍了一个Python爬虫程序,用于从特定网站抓取并下载整本小说。程序通过设置递归深度避免了默认限制,利用正则表达式匹配网页中的标题和内容。匹配到的标题和内容被保存到本地文件,同时程序会自动寻找并爬取下一章的链接,直到小说下载完毕。
摘要由CSDN通过智能技术生成
from urllib.request import urlopen
import re
import sys
# 发现python默认的递归深度是很有限的,大概是900多的样子,当递归深度超过这个值的时候,就会引发这样的一个异常。
# 解决的方式是手工设置递归调用深度,方式为:
sys.setrecursionlimit(1000000)

class StorySpider:
    # 构造方法 运行即加载
    def getHttpResponse(self, url):
        self.url = url
        # 获取网页返回的对象并用read()方法读取成字节形的格式并解码过后为字符串型 解码需与网页编码一致
        self.httpResponse = urlopen(self.url).read().decode('gbk')
        # print(type(self.httpResponse))
        self.mateTitle()

    # 匹配标题函数
    def 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值