Python HTML操作(HTMLParser)
HTML操作是编程中很重要的一块,下面用Python3.x中的html.parser中的HTMLParser类来进行HTML的解析。
HTMLParser类定义及常用方法
标准库中的定义
class html.parser.HTMLParser(*,convert_charrefs=True)
1.HTMLParser主要用来解析HTML文件(包括HTML中无效的标记)
2. 参数convert_charrefs表示是否将所有字符引用自动转化为Unicode形式,python3.5以后默认是True
3. HTMLParser可以接收相应的HTML类容,并进行解析,遇到HTML的标签会自动调用相应的handler方法
4. HTMLParser不会检查开始标签和结束标签是否是一对
· 常用方法
1.HTMLParser.feed(data):接受一个字符串类型的HTML内容,并进行解析
2.HTMLParser.close():当遇到文件结束标签后进行的处理。如果子类要复写该方法,需要首先调用HTMLParser类的close()
3.HTMLParser.reset():重置HTMLParser实例,该方法会丢掉为处理的html内容
4.HTMLParser.getpos():返回当前行和相应的偏移量
5.HTMLParser.handle_starttag(tag, attrs):对开始标签的处理方法。例如
,参数tag指的就是div,attrs指的是一个(name,value)的列表
6.HTMLParser.hand
6.HTMLParser.hand