python解析html用哪个模块_使用 Python 模块—— HTMLParser 解析 HTML 文档元素

最新推荐文章于 2024-04-21 23:00:00 发布

weixin_39941859

最新推荐文章于 2024-04-21 23:00:00 发布

阅读量68

点赞数

文章标签： python解析html用哪个模块

这个文档定义了一个 HTMLParser 类作为解析 HTML 文档的基础。

HTMLParser 类的实例可以存储并调用方法来处理 HTML 标签和数据。

我们一般通过建立一个 HTMLParser 的子类然后覆盖它的方法来实现我们想要的操作。

HTMLParser 有很多方法，一般我们只需要覆盖下面几个方法：HTMLParser.handle_starttag(tag, attrs)

#遇到一个开始标签时就会执行这个方法

#tag 是遇到的标签，attrs attrs是 (属性，值)元组(tuple)的列表(list)。

HTMLParser.handle_endtag(tag)

#遇到一个结束标签时就会执行这个方法

#tag 是遇到的标签

HTMLParser.handle_data(data)

#这个方法处理标签里面的内容

#data 是遇到的内容

我们先通过一个基本的例子来了解一下这个模块是如何工作的

这个例子会打印出开始标签和结束标签以及标签里面的内容from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):

print '遇到的开始标签：%s'%tag

def handle_endtag(self, tag):

print '遇到的结束标签：%s'%tag

def handle_data(self, data):

print '遇到的内容：%s'%data

m = MyHTMLParser()

m.feed('

标题三

')

输出：遇到的开始标签：h3

遇到的内容：标题三

遇到的结束标签：h3

我们来分析一下这个例子做了什么。首先我们建立了一个 HTMLParser 的之类，并覆盖了它的方法。

运行时，它首先遇到了一个开始标签 “< h3>” ，执行 HTMLParser.handle_starttag(tag, attrs) 方法，打印出开始标签。

接着它又遇到了标签里面的内容 “标题三” ，执行 HTMLParser.handle_data(data) ，打印出 “标题三” 。

最后它遇到结束标签，执行 HTMLParser.handle_endtag(tag) ，打印出结束标签。

从这个例子可以很快的理解如何使用这个模块来分析 HTML。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。