python使用HTMLParser解析网页

本文介绍了Python的HTMLParser库在爬虫中用于解析HTML的基本用法。首先解释了HTMLParser是一个内置的HTML解析库,然后详细阐述了使用步骤,包括引入库、创建子类和重写相关方法。最后通过一个爬取必应图片的例子展示了其实战应用。
摘要由CSDN通过智能技术生成


前言

写爬虫自然少不了html解析,今天介绍HTMLParser 的简单使用。

一、HTMLParser 是什么?

HTMLParser 是python 3自带的解析html的库。我们只需继承HTMLParser写一个子类,重写函数便可以使用它进行解析网页了。

二、使用步骤

1.引入库

代码如下(示例):

from html.parser import HTMLParser

2.继承HTMLParser创建子类

代码如下(示例):

class ImageParse(HTMLParser, ABC):

    def __init__(self, *, convert_charrefs=True):
        super().__init__(convert_charrefs=convert_charrefs)
        """
        json_str array
        """
        self.data = []

    def handle_starttag(self, tag, attrs):
        super().handle_starttag(tag, attrs)
        if tag == "a" and ("class", "iusc") in attrs:
            for attr in attrs:
                if attr[0] == "m":
                    # print(attr[1])
                    self.data.append(attr[1])

3.重写方法

下面列出常见重写的方法。

# 处理开始和结束标签,默认调用了
# handle_starttag(tag, attrs)
# self.handle_endtag(tag)
def handle_startendtag(sel
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值