HTMLParser 学习笔记

这篇博客分享了使用Python内置的HTMLParser库解析HTML的心得,指出HTML虽为XML子集,但格式不严格,不适合DOM或SAX解析。文章介绍了HTMLParser中需重写方法的实践,并详细讲解了通过feed()函数处理HTML数据的过程。
摘要由CSDN通过智能技术生成

本文记录了一些学习Python HTMLParser时的一些心得,基于个人理解,如有错误欢迎指正:


资料:https://docs.python.org/3/library/html.parser.html

HTML属于XML的子集,但是格式不像XML这么严格,不能用标准的 DOM 或 SAX 来解析 HTML

python中自带了一个类 HTMLParser用来解析HTML

我们可以看到,HTMLParser里面很多方法都是空的,如果需要使用,需要重写方法

# Overridable -- finish processing of start+end tag: <tag.../>
def handle_startendtag(self, tag, attrs):
    self.handle_starttag(tag, attrs)
    self.handle_endtag(tag)

# Overridable -- handle start tag
def handle_starttag(self, tag, attrs):
    pass

# Overridable -- handle end tag
def handle_endtag(self, tag):
    pass

# Overridable -- handle data
def handle_data(self, data):
    pass

进行简单的方法重写:

#解析属性
def handle_starttag(self, tag, attrs):
    print("Start tag:", tag)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值