# from HTMLParser import HTMLParser
from html.parser import HTMLParser # 将字符串格式的html文本转成html
class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
self.data = []
def handle_startendtag(self, tag, attrs):
pass
def handle_endtag(self, tag):
pass
def handle_data(self, data):
if data.count('\n') == 0:
self.data.append(data)
if __name__ == '__main__':
parser = MyHTMLParser()
for i in conn(): # 获取文章
content = i[0]
parser.feed(content)
parser.data # 通过这个可以获取去标签后的内容列表
参考:https://www.cnblogs.com/AlwinXu/p/5492033.html