基于python+pandoc实现html批量转word

最新推荐文章于 2024-08-22 09:09:05 发布

程序员小雷

最新推荐文章于 2024-08-22 09:09:05 发布

阅读量947

点赞数 30

文章标签： python html word 测试用例测试工具单元测试功能测试

本文链接：https://blog.csdn.net/OKCRoss/article/details/140067414

版权

pandoc是一个强大的文档格式转换工具,支持丰富的格式转换,并尽可能的保留原来的排版,号称文档格式转换的瑞士军刀,本文将给大家介绍一下使用python搭配pandoc实现html批量转word,感兴趣的朋友可以参考阅读−

好兄弟工作上有一批（5000+）html的文档需要转成word格式，他采用了两种实现方式，但都有些问题：

找到我来帮忙，研究了下发现了pandoc这个神器，记录下实现的过程和踩的坑

pandoc是一个强大的文档格式转换工具，支持丰富的格式转换，并尽可能的保留原来的排版，号称文档格式转换的瑞士军刀

体支持哪些格式转换可以查看官方文档（网页打开比较慢…）：Pandoc - index

需要说明的是，pandoc要下载并安装到本地才可以使用，windows下是一个msi的安装包（mac版没试），安装之后会自动添加路径到环境变量里，可以直接使用cmd执行程序

一开始我是直接使用cmd指令进行格式转换，使用到的指令如下：

pandoc abc.html -o abc.docx

本地测试了一下可以正常转换，然后我就想写一个bat脚本批量执行，但是发现cmd指令读不出来中文文件名，即使改了cmd的编码为UTF-8也不行，查了好多资料都没找到解决方法，只好作罢，如果有大佬知道怎么读取中文文件名的还请不吝赐教

没法使用bat脚本进行转换，又查了些资料，改为使用python中的os.system来代替执行cmd指令，具体代码如下：

注意：前提是必须要安装pandoc到系统

import os
def transfer_file(file_dir):
count = 1
for root, dirs, files in os.walk(file_dir): # 获取当前文件夹的信息
for file in files: # 扫描所有文件
if os.path.splitext(file)[1] == ".html": # 提取出所有后缀名为.html的文件
os.chdir(root) # os.chdir() 方法用于改变当前工作目录到指定的路径。
print("正在转换第:" + str(count) + "个文件")
count = count + 1
print("转换开始：" + "pandoc " + file + " -o " + os.path.splitext(file)[0] + ".docx")
# 使用os.system调用pandoc进行格式转化
os.system("pandoc " + file + " -o " + os.path.splitext(file)[0] + ".docx")
print("转换完成...")
if __name__ == "__main__":
# os.path.realpath(__file__))是当前python文件所在的文件夹路径，如果想要转换指定文件夹，可以修改此路径
transfer_file(os.path.dirname(os.path.realpath(__file__)))