docx批量转markdown脚本分享

之前用有道云记笔记,笔记导出格式基本都为docx格式,有道笔不能批量导出,另外就是时常卡顿,就想着换个markdown编辑器直接保存本地,前后尝试了notepad++插件,Atom,MarkdownPad,Cmd Markdown,最终还是选择了Typora,大纲和文件树是真的舒服,就是启动太慢。

有道云笔记导出格式都是word类型的,数量还不少,只好搞个脚本进行格式转换了。

repo:https://github.com/SevenC-base/docx_to_markdown
效果还行,不求美观之类的,能跑就行了

1.简介

一个辅助脚本,利用工具pandoc,以单线程的方式将目录下所有docx文件转为markdown格式。

pandocx:https://github.com/jgm/pandoc/releases/tag/2.14.1

2.使用配置:

修改如下配置:

# 配置pandoc 路径
pandoc_path = "C:\\Users\\Administrator\\Downloads\\pandoc.exe"
# 配置docx文件存在的路径,会遍历该路径下的所有docx文件
dirctory = "D:\\笔记\\"
# 配置图片存储路径
images_store_path = "D:\\笔记\\images\\"

3.运行结果如下

在这里插入图片描述
生成目录就是原来的目录,想筛选的话就文件夹搜索.md就好了。

在这里插入图片描述

可以使用 Python 中的 python-docx 和 BeautifulSoup 库来实现批量docx 到 html 的功能。具体步骤如下: 1. 安装 python-docx 和 BeautifulSoup 库 可以使用 pip 工具来安装这两个库。在终端中执行以下命令: ``` pip install python-docx pip install beautifulsoup4 ``` 2. 编写 Python 脚本Python 脚本中,首先需要导入 python-docx 和 BeautifulSoup 库,然后使用 python-docx 库打开 docx 文件,将其换为 HTML 字符串,最后使用 BeautifulSoup 库对 HTML 字符串进行解析和格式化,然后保存为 html 文件。 下面是示例代码: ```python import os from docx import Document from bs4 import BeautifulSoup # 设置源文件和目标文件夹 src_folder = './docx_files' dst_folder = './html_files' # 遍历源文件夹中的所有 docx 文件 for filename in os.listdir(src_folder): if filename.endswith('.docx'): # 打开 docx 文件 doc = Document(os.path.join(src_folder, filename)) # 将 docx 换为 HTML 字符串 html = doc._element.xml # 使用 BeautifulSoup 对 HTML 进行格式化 soup = BeautifulSoup(html, 'html.parser') pretty_html = soup.prettify() # 保存为 html 文件 with open(os.path.join(dst_folder, f'{filename[:-5]}.html'), 'w', encoding='utf-8') as f: f.write(pretty_html) ``` 这段代码会将 `./docx_files` 文件夹中的所有 docx 文件换为 html 文件,并保存到 `./html_files` 文件夹中。其中,`filename[:-5]` 表示去掉文件名中的后缀名,即将 `.docx` 后缀替换为 `.html`。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值