关于小说网页逐次将其txt文档内容遍历并保存到txt文件

我想找的小说,网上没有下载的页面,想找个第三方得网站把小说里的内容直接复制到本地的txt文件里,于是就写了个python脚本来实现。
 

import requests
from bs4 import BeautifulSoup
# 定义请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
# 选择的页面范围
page_numbers = range(1, 100) 

# 定义输出文件名
output_filename = "小说内容名.txt"

# 打开文件准备写入
with open(output_filename, 'w', encoding='utf-8') as file:
    for page_number in page_numbers:
        # 设置想要复制得目标URL
        url = f"https://mp.csdn.net//{page_number}.html"

        # 发送GET请求
        response = requests.get(url, headers=headers)

        # 检查请求是否成功
        if response.status_code == 200:
            # 解析HTML内容
            soup = BeautifulSoup(response.text, 'html.parser')

            # 提取章节标题(对应你想复制得页面里HTML内容【 Title 】)
            title = soup.find('h1', class_='Title').get_text(strip=True)

            # 提取章节内容【 bookhome 】
            content_div = soup.find('div', id='bookhome')
            paragraphs = content_div.find_all('p')
            content = '\n'.join([p.get_text(strip=True) for p in paragraphs])
            
            # 写入章节标题和内容到文件
            file.write(f"章节标题: {title}\n\n")
            file.write(content)
            file.write("\n\n\n")  # 添加两个空行作为分隔

        else:
            print(f"请求失败,页面 {page_number} 的状态码:", response.status_code)

print(f"所有内容已保存到文件: {output_filename}")

这里的page_numbers 是每个网页里小说每章编号的范围,
title = soup.find('h1', class_='readTitle').get_text(strip=True)
content_div = soup.find('div', id='booktxt')
分别对应html元素包含的内容,记得每个网站有所不同也要更改。
如:(不对应以上代码)

1 HTM(HTML)转TXT 所需软件:HTML2TXT.exe 说明:启动软件,单击“添加文件”按钮找到需要转换的HTML文件;选择一个输出文件夹,然后单击“开始”按钮即可得到反编译后的HTM文件。 2 CHM转TXT 所需软件:CHM Encoder 说明:启动软件,单击“打开”按钮,找到需要转换的CHM文件;选择一个输出文件夹,然后单击“开始”按钮,即可得到反编译后的HTM文件。接下来执行上面讲过的HTM(HTML)转TXT的步骤,即可得到TXT文件。 3 PDF转TXT 所需软件:PDF Text Converter 说明:启动软件后,先在左上方的浏览器窗口内找到PDF文件所在的文件夹,此时左下方的文件列表窗口中会显示出该文件夹中的PDF文件,选中欲转换的文件,单击工具栏上的“添加文件”按钮,即会在右上方的窗口中列出等待转换的文件,添加完成后,单击齿轮形状的“转换”按钮,即可完成转换,转换好的TXT文件保存在源文件所在文件夹内。 4 JAR转TXT 所需软件:WinRAR 说明:只要你的电脑上安装了WinRAR,即可右击JAR文件,直接将其解压缩。此时你需要做的,就是将这些没有扩展名的文件加上TXT的扩展名(快捷的方法下面会有介绍)。 5 UMD转TXT 所需软件:XBookMaker 说明:启动软件后,单击左上方的“Open folder”按钮,定位到包含UMD电子书的文件夹,此时会在左边的的“Files”窗口列出该文件夹内包含的所有UMD格式的电子书,点击一个UMD文件,左下方的“Chapters”窗口中即会显示该电子书中所包含的章节。单击任意一个章节,即可在右边的窗口中看到该章节的内容。现在你只需将其复制将其粘贴到记事本中,保存TXT即可, 6 EXE转TXT 所需软件:miniKillEBook 说明:先打开想要转换的EXE电子书,再启动miniKillEBook,勾选“以文本方式保存”复选框,拖动图中的图标到电子书窗口中,单击“开始”按钮,软件即会自动将电子书“逐页翻过”将每一页内容存为TXT文本。 刚看到的软件,我比较喜欢用手机看书,这个很方便
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值