python_爬虫_str类型的html文本去标签

最新推荐文章于 2022-07-03 22:04:32 发布

weixin_30945039

最新推荐文章于 2022-07-03 22:04:32 发布

阅读量530

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/hejianlong/p/9593343.html

版权

# from HTMLParser import HTMLParser
from html.parser import HTMLParser # 将字符串格式的html文本转成html

class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.data = []
    def handle_startendtag(self, tag, attrs):
        pass
    def handle_endtag(self, tag):
        pass
    def handle_data(self, data):
        if data.count('\n') == 0:
            self.data.append(data)

if __name__ == '__main__':
    parser = MyHTMLParser()
    for i in conn(): # 获取文章
        content = i[0]
        parser.feed(content)

        parser.data # 通过这个可以获取去标签后的内容列表

参考：https://www.cnblogs.com/AlwinXu/p/5492033.html

转载于:https://www.cnblogs.com/hejianlong/p/9593343.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30945039

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python_爬虫_str类型的html文本去标签

# from HTMLParser import HTMLParserfrom html.parser import HTMLParser # 将字符串格式的html文本转成htmlclass MyHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) ...
复制链接

扫一扫