python html解析纯文本_将HTML解析为纯文本

最新推荐文章于 2021-06-03 09:05:39 发布

weixin_39639174

最新推荐文章于 2021-06-03 09:05:39 发布

阅读量597

点赞数

文章标签： python html解析纯文本

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39639174/article/details/113480204

版权

我正在尝试使用MLStripper类，我发现在一些帖子中推荐使用它来从电子邮件中剥离html，以获得纯文本。strip_tags函数在尝试分析时遇到问题，原因是“@”符号。我想这个类的功能还不够强大，不能只解析有效的html标记，有什么建议可以解决下面的问题来处理“@”或另一个库来从文本中删除html？我还需要删除类似&amp；的内容。在

Python:from HTMLParser import HTMLParser

class MLStripper(HTMLParser):

def __init__(self):

self.reset()

self.fed = []

def handle_data(self, d):

self.fed.append(d)

def get_data(self):

return ''.join(self.fed)

def strip_tags(self, html):

s = MLStripper()

s.feed(html)

return s.get_data()

ML = MLStripper()

test = ML.strip_tags("

On Sep 27, 2012, at 4:11 PM, Mark Smith wrote

")

print test

错误：

^{pr2}$

weixin_39639174

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python html解析纯文本_将HTML解析为纯文本

我正在尝试使用MLStripper类，我发现在一些帖子中推荐使用它来从电子邮件中剥离html，以获得纯文本。strip_tags函数在尝试分析时遇到问题，原因是“@”符号。我想这个类的功能还不够强大，不能只解析有效的html标记，有什么建议可以解决下面的问题来处理“@”或另一个库来从文本中删除html？我还需要删除类似&amp；的内容。在Python:from HTMLParser imp...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。