这篇文章主要介绍了Python转换HTML到Text纯文本的方法,分析了常用的两种方法,非常具有实用价值,需要的朋友可以参考下
本文实例讲述了Python转换HTML到Text纯文本的方法。分享给大家供大家参考。具体分析如下:
今天项目需要将HTML转换为纯文本,去网上搜了一下,发现Python果然是神通广大,无所不能,方法是五花八门。
拿今天亲自试的两个方法举例,以方便后人:
方法一:
1. 安装nltk,可以去pipy装
(注:需要依赖以下包:numpy, PyYAML)
2.测试代码:
>>> import nltk
>>> aa = r'''''
Project: DeHTML
Description:
This small script is intended to allow conversion from HTML markup to
plain text.
'''
>>> aa
'\n\n
\n Project: DeHTML\n Description:
\n This small script is intended to allow conversion from HTML markup to \n plain text.\n \n