python使用HTMLParser解析网页

最新推荐文章于 2024-04-07 10:04:33 发布

皓0o0

最新推荐文章于 2024-04-07 10:04:33 发布

阅读量782

点赞数 1

分类专栏： python 文章标签：爬虫 python html

本文链接：https://blog.csdn.net/weixin_42591870/article/details/109662491

版权

本文介绍了Python的HTMLParser库在爬虫中用于解析HTML的基本用法。首先解释了HTMLParser是一个内置的HTML解析库，然后详细阐述了使用步骤，包括引入库、创建子类和重写相关方法。最后通过一个爬取必应图片的例子展示了其实战应用。

摘要由CSDN通过智能技术生成

前言

写爬虫自然少不了html解析，今天介绍HTMLParser 的简单使用。

一、HTMLParser 是什么？

HTMLParser 是python 3自带的解析html的库。我们只需继承HTMLParser写一个子类，重写函数便可以使用它进行解析网页了。

二、使用步骤

1.引入库

代码如下（示例）：

from html.parser import HTMLParser

2.继承HTMLParser创建子类

代码如下（示例）：

class ImageParse(HTMLParser, ABC):

    def __init__(self, *, convert_charrefs=True):
        super().__init__(convert_charrefs=convert_charrefs)
        """
        json_str array
        """
        self.data = []

    def handle_starttag(self, tag, attrs):
        super().handle_starttag(tag, attrs)
        if tag == "a" and ("class", "iusc") in attrs:
            for attr in attrs:
                if attr[0] == "m":
                    # print(attr[1])
                    self.data.append(attr[1])

3.重写方法

下面列出常见重写的方法。

# 处理开始和结束标签，默认调用了
# handle_starttag(tag, attrs)
# self.handle_endtag(tag)
def handle_startendtag(sel

最低0.47元/天解锁文章

皓0o0

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python使用HTMLParser解析网页

文章目录前言一、HTMLParser 是什么？二、使用步骤1.引入库2.继承HTMLParser创建子类3.重写方法三、例子前言写爬虫自然少不了html解析，今天介绍HTMLParser 的简单使用。一、HTMLParser 是什么？HTMLParser 是python 3自带的解析html的库。我们只需继承HTMLParser写一个子类，重写函数便可以使用它进行解析网页了。二、使用步骤1.引入库代码如下（示例）：from html.parser import HTMLParser2.
复制链接

扫一扫