docx批量转markdown脚本

会打莎士比亚的猴子

已于 2023-05-23 16:06:53 修改

阅读量997

点赞数

分类专栏：文档管理文章标签： python windows

于 2023-05-12 15:38:17 首次发布

本文链接：https://blog.csdn.net/qq_32966261/article/details/130642893

版权

文档管理专栏收录该内容

3 篇文章

订阅专栏

文章介绍了如何利用Pandoc工具进行docx到Markdown以及Markdown到docx的批量转换，提供了Windows批处理脚本和Python脚本示例，但警告这种方法可能不适合格式复杂的文档，尤其是含表格的文档。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

使用该方法只能转换格式比较简单的文档，包含表格的效果不是很好。

工具

转换需要使用到Pandoc工具。
Pandoc是由John MacFarlane开发的标记语言转换工具，可实现不同标记语言间的格式转换，堪称该领域中的“瑞士军刀”。
Pandoc下载链接

windows脚本

docx转markdown

@echo off

for /f "tokens=* delims=" %%i in ('dir /b *.docx') do (
  @echo %%i
  pandoc -f docx -t markdown -o "%%~ni.md" "%%i"
  @echo Finished
)

pause > nul

markdown转docx

@echo off

for /f "tokens=* delims=" %%i in ('dir /b *.md') do (
  @echo %%i
  pandoc -f markdown -t docx -o "%%~ni.docx" "%%i"
  @echo Finished
)

pause > nul

python脚本

脚本名称docx_to_md.py

import os

# 将中文部分替换为你想要的文件路径。
filepath = r'待转换文件所在文件夹'
destination_path = r'转换后文件所在文件夹'

# 检查转换后文件所在文件夹是否存在，不存在则创建。
if os.path.exists(destination_path):
    pass
else:
    os.makedirs(destination_path)

# os.listdir 命令列出待转换文件所在文件夹中所有文件的名称，包含 .xxx 后缀
file_names = os.listdir(filepath)

for file_name in file_names:

    # .rfind('.')，从左往右直到最后一个 . 的位置。
    index = file_name.rfind('.')

    # index == -1 即不存在 . 符号。
    if index != -1:

        # 将不带后缀的文件名储存到另一变量中。
        file_name_nosuffix = file_name[:index]

        # os.system 命令调用系统命令行。Linux 和 Mac 可能需要将 \ 替换为 /.
        os.system(f'pandoc {filepath}\{file_name} -f docx -t markdown -s -o {destination_path}\{file_name_nosuffix}.md')

终端执行脚本

$ python docx_to_md.py