docx批量转markdown脚本 (***)

docx批量转markdown脚本

DOCX转Markdown:pandoc 指令格式

Python将DOCX转换为markdown文件:py 指令格式

-------------------------------------------------------------------------

docx批量转markdown脚本 (***)
https://blog.csdn.net/ken2232/article/details/134389091

docx批量转rst方法 (***) :分割word文档,word批量转 rst
https://blog.csdn.net/ken2232/article/details/134439155


有没有html转markdown的批量格式转换工具?linux文件编码批量转换脚本 (**)
https://blog.csdn.net/ken2232/article/details/134440905

==========================================

Python将DOCX转换为markdown文件:py 指令格式

需求驱动

我写了很多文章,用docx来保存,现在想把他放到博客上,我该怎么做?复制粘贴?不!我要格式转换!

DOCX转换成HTML

from pydocx import PyDocX
html = PyDocX.to_html(r"E:\工作管理\环境搭建\文档上传\格式转换\test.docx")
f = open("test.html", 'w', encoding="utf-8")
f.write(html)
f.close()

在这里插入图片描述如上图已经生成文件,我们看看效果:

在这里插入图片描述如上图,效果还是不错的。

HTML转换成markdown

from pydocx import PyDocX
import html2text as ht

html = PyDocX.to_html(r"E:\工作管理\环境搭建\文档上传\格式转换\test.docx")
f = open("test.html", 'w', encoding="utf-8")
f.write(html)
f.close()

text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
path =r"E:\工作管理\环境搭建\文档上传\格式转换\test.html"
htmlfile = open(path,'r',encoding='UTF-8')
htmlpage = htmlfile.read()
text = text_maker.handle(htmlpage)
md = text.split('#')
open("test.md","w").write(md[1])

原文链接:https://blog.csdn.net/weixin_43431593/article/details/105185702

DOCX转Markdown:指令格式

工具

    pandoc 一个强大的转换工具
    下载教程:https://blog.csdn.net/qq_45224889/article/details/123463037

使用

pandoc -f docx -t markdown --extract-media ./  -o 转换后你要的文件.md  -i 你要转化的文件.docx

    -f docx:指定源文件为 docx 格式(from)
    -t markdown:指定我们要转为 md 格式(to)
    –extract-media ./images :将图片文件导出到目录 ./images/media ,所以仅仅 ./ 会默认放在当前目录下的media中
    -o output.md:表示输出的文件名为 output.md(output)
    -i input.docx:表示要转换的文件为 input.docx ( -i 可省略 )

原文链接:https://blog.csdn.net/Bkhole/article/details/131738597

利用Pandoc软件来转换word文件到markdown文件

注意doc文件需要保存docx文件格式才可以使用下面命令行

    # docx没有图片的情况如下:
    pandoc ".\test.docx" -o 1.md
     
    # docx如果存在图片,需要将图片保存到media目录下面如下:
    pandoc test.docx --extract-media=. -o test.md

原文链接:https://blog.csdn.net/ningfeng8899/article/details/131637881

docx批量转markdown脚本 (***)

写在前面

使用该方法只能转换格式比较简单的文档,包含表格的效果不是很好

注:表格的效果,还行吧?

之所以该作者说效果不好,只是因为所使用的命令,不是最合适的而已?

工具

转换需要使用到Pandoc工具。

Pandoc是由John MacFarlane开发的标记语言转换工具,可实现不同标记语言间的格式转换,堪称该领域中的“瑞士军刀”。

Pandoc下载链接

windows脚本

docx转markdown

@echo off

for /f "tokens=* delims=" %%i in ('dir /b *.docx') do (
  @echo %%i
  pandoc -f docx -t markdown -o "%%~ni.md" "%%i"
  @echo Finished
)

pause > nul

markdown转docx

@echo off

for /f "tokens=* delims=" %%i in ('dir /b *.md') do (
  @echo %%i
  pandoc -f markdown -t docx -o "%%~ni.docx" "%%i"
  @echo Finished
)

pause > nul

python脚本

脚本名称docx_to_md.py

import os

# 将中文部分替换为你想要的文件路径。
filepath = r'待转换文件所在文件夹'
destination_path = r'转换后文件所在文件夹'

# 检查转换后文件所在文件夹是否存在,不存在则创建。
if os.path.exists(destination_path):
    pass
else:
    os.makedirs(destination_path)

# os.listdir 命令列出待转换文件所在文件夹中所有文件的名称,包含 .xxx 后缀
file_names = os.listdir(filepath)

for file_name in file_names:

    # .rfind('.'),从左往右直到最后一个 . 的位置。
    index = file_name.rfind('.')

    # index == -1 即不存在 . 符号。
    if index != -1:

        # 将不带后缀的文件名储存到另一变量中。
        file_name_nosuffix = file_name[:index]

        # os.system 命令调用系统命令行。Linux 和 Mac 可能需要将 \ 替换为 /.
        os.system(f'pandoc {filepath}\{file_name} -f docx -t markdown -s -o {destination_path}\{file_name_nosuffix}.md')

终端执行脚本

$ python docx_to_md.py

————————————————
版权声明:本文为CSDN博主「会打莎士比亚的猴子」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_32966261/article/details/130642893

:https://blog.csdn.net/qq_32966261/article/details/130642893

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用 Python 中的 python-docx 和 BeautifulSoup 库来实现批量docx 到 html 的功能。具体步骤如下: 1. 安装 python-docx 和 BeautifulSoup 库 可以使用 pip 工具来安装这两个库。在终端中执行以下命令: ``` pip install python-docx pip install beautifulsoup4 ``` 2. 编写 Python 脚本 在 Python 脚本中,首先需要导入 python-docx 和 BeautifulSoup 库,然后使用 python-docx 库打开 docx 文件,将其换为 HTML 字符串,最后使用 BeautifulSoup 库对 HTML 字符串进行解析和格式化,然后保存为 html 文件。 下面是示例代码: ```python import os from docx import Document from bs4 import BeautifulSoup # 设置源文件和目标文件夹 src_folder = './docx_files' dst_folder = './html_files' # 遍历源文件夹中的所有 docx 文件 for filename in os.listdir(src_folder): if filename.endswith('.docx'): # 打开 docx 文件 doc = Document(os.path.join(src_folder, filename)) # 将 docx 换为 HTML 字符串 html = doc._element.xml # 使用 BeautifulSoup 对 HTML 进行格式化 soup = BeautifulSoup(html, 'html.parser') pretty_html = soup.prettify() # 保存为 html 文件 with open(os.path.join(dst_folder, f'{filename[:-5]}.html'), 'w', encoding='utf-8') as f: f.write(pretty_html) ``` 这段代码会将 `./docx_files` 文件夹中的所有 docx 文件换为 html 文件,并保存到 `./html_files` 文件夹中。其中,`filename[:-5]` 表示去掉文件名中的后缀名,即将 `.docx` 后缀替换为 `.html`。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值