前言
学习时有很多word格式的笔记文档,想放到博客上方便随时查阅。
准备工作
- 找个网站将word文档转为markdown格式:如word转md文件
转了之后发现它直接将图片以base64硬编码到markdown文件中了,这样没办法在csdn上显示。 - 找个网站将word文档转为html格式:如word转html文件,这个转换后是一个
html
文件和word中的图片文件的压缩包。因此考虑将两种方式结合起来,即转md,得到md文件。再转html,得到html文件和图片文件。将md里的链接替换为图片文件的链接。我遇到的问题是文档中图片有几十张,而csdn没办法批量上传,于是我将图片放到了我的服务器上
转换为在csdn上能显示的markdown
写py脚本完成转换
#!/usr/bin/python
#coding=utf-8
import re
from bs4 import BeautifulSoup as bsp
import sys
import os
if len(sys.argv) == 3:
htmlFilename = sys.argv[1]
mdFilename = sys.argv