Python 之 HTMLParser 简单案例_python html.parser例子csdn-CSDN博客

本文链接：https://blog.csdn.net/weixin_41558061/article/details/79240640

本文介绍了Python3.x中html.parser模块的HTMLParser类用于解析HTML文件的基本使用，包括其主要功能、常用方法，如feed()、close()、reset()等，以及handle_starttag()方法处理开始标签。

摘要由CSDN通过智能技术生成

Python HTML操作（HTMLParser）

HTML操作是编程中很重要的一块，下面用Python3.x中的html.parser中的HTMLParser类来进行HTML的解析。
HTMLParser类定义及常用方法

标准库中的定义

class html.parser.HTMLParser(*,convert_charrefs=True)
1.HTMLParser主要用来解析HTML文件（包括HTML中无效的标记）
2. 参数convert_charrefs表示是否将所有字符引用自动转化为Unicode形式，python3.5以后默认是True
3. HTMLParser可以接收相应的HTML类容，并进行解析，遇到HTML的标签会自动调用相应的handler方法
4. HTMLParser不会检查开始标签和结束标签是否是一对

· 常用方法
1.HTMLParser.feed(data):接受一个字符串类型的HTML内容，并进行解析
2.HTMLParser.close():当遇到文件结束标签后进行的处理。如果子类要复写该方法，需要首先调用HTMLParser类的close()
3.HTMLParser.reset():重置HTMLParser实例，该方法会丢掉为处理的html内容
4.HTMLParser.getpos():返回当前行和相应的偏移量
5.HTMLParser.handle_starttag(tag, attrs):对开始标签的处理方法。例如

,参数tag指的就是div，attrs指的是一个(name,value)的列表
6.HTMLParser.hand