我正在尝试使用MLStripper类,我发现在一些帖子中推荐使用它来从电子邮件中剥离html,以获得纯文本。strip_tags函数在尝试分析时遇到问题,原因是“@”符号。我想这个类的功能还不够强大,不能只解析有效的html标记,有什么建议可以解决下面的问题来处理“@”或另一个库来从文本中删除html?我还需要删除类似&;的内容。在
Python:from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(self, html):
s = MLStripper()
s.feed(html)
return s.get_data()
ML = MLStripper()
test = ML.strip_tags("
On Sep 27, 2012, at 4:11 PM, Mark Smith wrote
print test
错误:
^{pr2}$