Python 实现 Html 转 Markdown(支持 MathJax 数学公式)

因为需要转 html 到 markdown,找了个 python 的库,该库主要是利用正则表达式实现将 Html 转为 Markdown。

数学公式需要自己修改代码来处理。

我 fork 的项目地址:https://github.com/fipped/tomd

使用方法:

把项目 clone 到当前路径,然后新建一个 python 文件:


#coding:utf-8
from tomd import tomd
import os

# 所有博客 html 文件在目录blog 里
root="blog"
for file in os.listdir(root):
    path = os.path.join(root, file)
    if os.path.isfile(path):
        filename = os.path.splitext(file)
        if filename[1] == '.html':
            tomd.Tomd("".join(open(path).readlines()),root,file).export()

运行完,就可在blog目录看到所有 html 对应的.md 文件了。

正则的一些用法:

  • .*?.是除了换行的任意字符,*是重复任意次,?表示非贪婪匹配,所以 <h1.*?>(.*?)</h1>匹配完<h1.*?>后就会匹配最早出现的</h1>

  • [\s\S]*?\s是空白符,包括空格、换行等,\S是非空白符,所以就是任意字符重复任意次的非贪婪匹配。

  • ((?!sometext).)*?:这里就是非贪婪地匹配不是字符串sometext的任意内容任意次。

转载于:https://www.cnblogs.com/flipped/p/9669255.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值