Python—解析HTML页面（HTMLParser）

最新推荐文章于 2023-03-25 10:55:47 发布

Crossln.

最新推荐文章于 2023-03-25 10:55:47 发布

阅读量497

点赞数

分类专栏： Python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a21700790yan/article/details/103601751

版权

本文介绍了Python的HTMLParser类，用于解析HTML文件，包括无效标记。讲解了HTMLParser类的定义、参数convert_charrefs的作用，以及如何创建子类并重写handler方法来处理HTML标签。此外，还提到了HTMLParser不会验证标签配对。

摘要由CSDN通过智能技术生成

HTMLParser类的定义及常用方法

类的定义

HTMLParser主要是用来解析HTML文件（包括HTML中无效的标记）。
参数convert_charrefs表示是否将所有的字符引用自动转化为Unicode形式，Python3.5以后默认是True。
HTMLParser可以接收相应的HTML内容，并进行解析，遇到HTML的标签会自动调用相应的handler（处理方法）来处理，用户需要自己创建相应的子类来继承HTMLParser，并且复写相应的handler方法。
HTMLParser不会检查开始标签和结束标签是否是一对。

常用方法

实例应用

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python—解析HTML页面（HTMLParser）

HTMLParser类的定义及常用方法类的定义HTMLParser主要是用来解析HTML文件（包括HTML中无效的标记）。参数convert_charrefs表示是否将所有的字符引用自动转化为Unicode形式，Python3.5以后默认是True。 HTMLParser可以接收相应的HTML内容，并进行解析，遇到HTML的标签会自动调用相应的handler（处理方法）来处理，用户需...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。