下面先上代码
import html2text as ht # pip install html2text
import requests
text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
htmlfile = requests.get(npurl)#npurl 为网址
htmlfile.encoding = 'gbk'
htmlpage = htmlfile.text
text = text_maker.handle(htmlpage)
md = text.split('#') # split post content
使用也比较简单,注意两个地方即可:
1.忽略链接和表格
我这里是按照官方文档中写的,实际测试链接可以不忽略,表格没有测试。
2.#的作用
在这里使用#号来分割文章的核心内容,舍弃博客的header和footer。