使用Python将HTML文档转换为Markdown文档

最新推荐文章于 2023-09-28 10:29:02 发布

peiwang245

最新推荐文章于 2023-09-28 10:29:02 发布

阅读量2.1k

点赞数 1

分类专栏： django 爬虫

本文链接：https://blog.csdn.net/peiwang245/article/details/99967279

版权

爬虫同时被 2 个专栏收录

27 篇文章 1 订阅

订阅专栏

django

14 篇文章 0 订阅

订阅专栏

下面先上代码

import html2text as ht  # pip install html2text
import requests

text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
htmlfile = requests.get(npurl)#npurl 为网址
htmlfile.encoding = 'gbk'
htmlpage = htmlfile.text
text = text_maker.handle(htmlpage)
md = text.split('#')  # split post content

使用也比较简单，注意两个地方即可：

1.忽略链接和表格

我这里是按照官方文档中写的，实际测试链接可以不忽略，表格没有测试。

2.#的作用

在这里使用#号来分割文章的核心内容，舍弃博客的header和footer。