写在前面
代码很菜,而且写了很久之后才写的笔记,代码里仅包含主要函数的实现。
原因
有很多很多,大概8000本epub文件需要转换成TXT。没找到现成工具偷懒,就想写一段代码代工。
缺点
只对文字有效,图片类无法转化。
原理
先转换成压缩包,解压缩得到一些包含图书内容的html文件,从html标记中获取文本并保存。
* 转换成压缩包:修改文件名后缀为’.rar’
* 解压缩:使用360批量解压。作者又懒又菜,写出解压缩代码的用的时间要远远超过使用工具的时间。
* 遍历文件,生成html文件的路径
* 解析html文件,获取文本信息
* 保存成TXT
需要的代码
- 依赖的包
import os
from urllib.request import urlopen
from bs4 import BeautifulSoup
from nt import chdir
- 修改文件名后缀
##将.epub修改成.rar
def epub_rar(start):
files = os.listdir(start+'\\.')#获取当前目录下的文件
for filename in files:
portion = os.path.splitext(filename)#将文件名拆成名字和后缀
if portion[1] == ".epub":
newname = portion[0] + ".rar"
os.rename(start+

本文介绍了一个使用Python将大量EPUB文件转换为TXT格式的过程。由于没有找到合适的现成工具,作者选择编写代码来实现。该方法通过将EPUB文件转化为RAR,然后解压并遍历HTML文件,提取文本内容,最后保存为TXT文件。值得注意的是,这种方法仅处理文字内容,不支持图片转换。
最低0.47元/天 解锁文章
750

被折叠的 条评论
为什么被折叠?



