python爬虫实战——爬取图片

"""
爬取以下网站的动物图片
url: https://pic.netbian.com/4kdongwu/
"""
import os
import requests
from bs4 import BeautifulSoup


def get_html(url):
    """
    获取网页内容
    :param url: 网页地址
    :return: 返回网页内容
    """
    resp = requests.get(url)
    # print(resp.status_code)  # 等于200的话说明网址没有反爬机制,则我们可以直接获取网页图片
    resp.encoding = 'gbk'  # 设置编码(网站的编码为GBK,不设置HTML内容中会出现乱码)
    html = resp.text  # 获取HTML内容
    # print(html)
    return html


def get_img_form_html(html):
    """
    从 html 中获取图片链接,并通过该链接下载图片
    :param html:
    :return:
    """
    # 获取图片链接
    soup = BeautifulSoup(html, 'html.parser')
    img_srcs = soup.find_all('img')
    for img in img_srcs:
        src = img['src']
        if src.startswith('/uploads'):
            # src = https://pic.netbian.com/uploads/allimg/231006/184010-16965888103766.jpg
            src = f"https://pic.netbian.com{src}"  # 拼接图片路径
            # print(src)
            filename = os.path.basename(src)  # filename = 184010-16965888103766.jpg
            # print(filename)
            with open(f'图片/{filename}', 'wb') as f:  # wb 以二进制的方式写入
                resp_img = requests.get(src)  # 获取图片
                # resp_img.content 表示以二进制流的方式将图片写入文件
                # resp_img.text 表示以文本的方式将图片写入文件
                f.write(resp_img.content)


# 获取分页1-10的图片
urls = (['https://pic.netbian.com/4kdongwu/'] +
        [f"https://pic.netbian.com/4kdongwu/index_{i}.html" for i in range(2, 11)])
for url in urls:
    html = get_html(url)  # 根据url获取网页内容
    get_img_form_html(html)  # 从网页内容中解析出图片链接并下载到本地

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值