【小说】TOP① 《江山美人志》作者:瑞根(精校全本)

好的,以下是代码实现: ```python import urllib.request import re import os # 设置请求头部信息,伪装成浏览器访问网站 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 目标小说主页URL target_url = 'https://www.doupoxs.com/doupocangqiong/' # 模拟浏览器访问获取网页HTML代码 req = urllib.request.Request(url=target_url, headers=headers) res = urllib.request.urlopen(req) html = res.read().decode('utf-8') # 获取小说名称 novel_name = re.findall(r'<h1>(.*?)</h1>', html)[0] print("小说名称:" + novel_name) # 创建小说保存的文件夹 if not os.path.exists(novel_name): os.makedirs(novel_name) # 获取每个章节的URL和标题 chapter_info = re.findall(r'<li><a href="(.*?)">(.*?)</a></li>', html) # 遍历每个章节,获取章节内容并保存到本地文件 for chapter in chapter_info: chapter_url = target_url + chapter[0] # 章节URL chapter_title = chapter[1] # 章节名称 # 模拟浏览器访问获取章节的HTML代码 chapter_req = urllib.request.Request(url=chapter_url, headers=headers) chapter_res = urllib.request.urlopen(chapter_req) chapter_html = chapter_res.read().decode('utf-8') # 获取章节正文(过滤掉无用标签) chapter_content = re.findall(r'<div id="content">(.*?)</div>', chapter_html, re.S)[0] chapter_content = chapter_content.replace(' ', '') # 替换空格 chapter_content = chapter_content.replace('<br/>', '') # 替换换行符 # 将章节内容写入文件 with open(os.path.join(novel_name, chapter_title + '.txt'), 'w', encoding='utf-8') as f: f.write(chapter_content) print('已下载:' + chapter_title) print('下载完成!') ``` 这段代码实现了爬取斗破苍穹小说每个章节的内容和标题,并以标题命名,保存到novel文件夹中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值