Python之HTMLParse

最新推荐文章于 2024-09-04 10:53:03 发布

rkingggggg

最新推荐文章于 2024-09-04 10:53:03 发布

阅读量1.1k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_38825407/article/details/86497919

版权

python 专栏收录该内容

34 篇文章

订阅专栏

本文介绍了一个自定义HTML解析器的实现过程，通过Python的HTMLParser模块，详细展示了如何处理开始标签、结束标签、数据内容等关键元素。解析器能够打印出标签的属性，并处理注释和实体引用。

摘要由CSDN通过智能技术生成

from html.parser import HTMLParser

class MyParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print('start  <%s>' % tag)
        print("attrs", end="")
        if attrs:
            print(attrs[0][0])
    def handle_endtag(self, tag):
        print('end  </%s>' % tag)

    def handle_startendtag(self, tag, attrs):
        print('start end <%s/>' % tag)

    def handle_data(self, data):
        print("data   "+data)

    def handle_comment(self, data):
        print('<!--', data, '-->')

    def handle_entityref(self, name):
        print('sssss&%s;' % name)

    def handle_charref(self, name):
        print('eeeee&#%s;' % name)
parser = MyParser()
data = '''<html><head h='abcd'></head>wgwfew</html>'''
parser.feed(data)