前言
写爬虫自然少不了html解析,今天介绍HTMLParser 的简单使用。
一、HTMLParser 是什么?
HTMLParser 是python 3自带的解析html的库。我们只需继承HTMLParser写一个子类,重写函数便可以使用它进行解析网页了。
二、使用步骤
1.引入库
代码如下(示例):
from html.parser import HTMLParser
2.继承HTMLParser创建子类
代码如下(示例):
class ImageParse(HTMLParser, ABC):
def __init__(self, *, convert_charrefs=True):
super().__init__(convert_charrefs=convert_charrefs)
"""
json_str array
"""
self.data = []
def handle_starttag(self, tag, attrs):
super().handle_starttag(tag, attrs)
if tag == "a" and ("class", "iusc") in attrs:
for attr in attrs:
if attr[0] == "m":
# print(attr[1])
self.data.append(attr[1])
3.重写方法
下面列出常见重写的方法。
# 处理开始和结束标签,默认调用了
# handle_starttag(tag, attrs)
# self.handle_endtag(tag)
def handle_startendtag(sel