爬虫，爬取百度图片，自定义关键字，数量，格式，大小

最新推荐文章于 2024-08-01 10:38:58 发布

学习当高手

最新推荐文章于 2024-08-01 10:38:58 发布

阅读量910

点赞数 20

文章标签：爬虫百度网络爬虫 python 风景科技经验分享

本文链接：https://blog.csdn.net/qq_53025411/article/details/135403264

版权

合适麻烦多多关照i👍👍😊

爬虫爬取图片需要满足以下几个条件：

爬取目标网站允许爬虫访问：有些网站会设置反爬虫机制，如robots.txt文件，限制爬虫访问。在爬取图片之前，需要确保目标网站允许爬虫访问。可以通过查看robots.txt文件或者网站的使用协议来确定是否可以爬取。
爬虫代码：需要编写合适的爬虫代码来实现图片的爬取。爬虫代码通常使用Python等编程语言来实现，使用第三方库（如BeautifulSoup、Scrapy等）来解析网页、获取图片链接，并使用HTTP请求来下载图片。
图片链接提取：在爬虫代码中，需要通过解析网页的HTML结构，提取出图片的链接。这可以通过使用正则表达式、XPath、CSS选择器等方式来实现。
图片下载：获取到图片链接后，需要通过HTTP请求下载图片并保存到本地或者存储到数据库中。可以使用Python的requests库来发送HTTP请求，并使用PIL或者OpenCV等库来保存下载的图片。
存储与处理：爬取的图片可以保存在本地文件系统中，也可以存储在数据库中。如果需要对图片进行后续处理，如压缩、裁剪等，可以使用相应的图像处理库来实现。

需要注意的是，在进行图片爬取时，应遵守法律和道德规范，不要侵犯他人的版权和隐私。同时，也要注意爬取速度，避免对目标网站造成过大的负载压力。

这篇代码，需要注意的是，要在当然目录下先建一个保存照片的文件夹，当然，你也可以修改一下，让代码先判断是否存在该文件夹，不存在就先进行创建，这些就看你自己的想法拉

具体代码如下：

import requests
import os
import re
import io
from PIL import Image


def get_images_from_baidu(keyword, num_images, save_dir, image_format='jpg', max_size=None):
    """
    从百度图片下载指定关键词的图片，并保存到指定目录中。

    :param keyword: str，搜索关键词。
    :param num_images: int，要下载的图片数量。
    :param save_dir: str，图片保存的目录。
    :param image_format: str，图片格式，默认为 'jpg'。
    :param max_size: tuple，限制图片的最大尺寸，格式为 (width, height)。
    """
    # 设置请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }
    # 设置请求的 URL
    url = 'https://image.baidu.com/search/acjson?'
    # 初始化计数器
    n = 0
    # 每页显示的图片数量
    rn = 30
    # 计算需要请求的页数
    page_num = (num_images + rn - 1) // rn
    # 循环遍历每一页，获取图片链接并下载保存
    for pn in range(0, rn * page_num, rn):
        # 请求参数
        params = {
            'tn': 'resultjson_com',
            'logid': '7603311155072595725',
            'ipn': 'rj',
            'ct': 201326592,
            'is': '',
            'fp': 'result',
            'queryWord': keyword,
            'cl': 2,
            'lm': -1,
            'ie': 'utf-8',
            'oe': 'utf-8',
            'adpicid': '',
            'st': -1,
            'z': '',
            'ic': '',
            'hd': '',
            'latest': '',
            'copyright': '',
            'word': keyword,
            's': '',
            'se': '',
            'tab': '',
            'width': '',
            'height': '',
            'face': 0,
            'istype': 2,
            'qc': '',
            'nc': '1',
            'fr': '',
            'expermode': '',
            'force': '',
            'cg': '',
            'pn': pn,
            'rn': rn,
            'gsm': '1e',
            '1618827096642': ''
        }
        # 发送请求
        response = requests.get(url=url, headers=headers, params=params)
        # 检查响应是否成功
        if response.ok:
            print('Request success.')
        # 解析响应数据并提取图片链接
        response.encoding = 'utf-8'
        html = response.text
        image_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)
        # 如果指定的目录不存在，则创建目录
        if not os.path.exists(save_dir):
            os.makedirs(save_dir)
        # 下载并保存图片
        for image_url in image_url_list:
            if n >= num_images:
                break
            try:
                # 获取图片数据
                image_data = requests.get(url=image_url, headers=headers).content
                # 打开图片并获取尺寸
                image = Image.open(io.BytesIO(image_data))
                width, height = image.size
                # 如果指定了最大尺寸并且图片尺寸超过了最大尺寸，则跳过该图片
                if max_size and (width > max_size[0] or height > max_size[1]):
                    continue
                # 保存图片
                with open(os.path.join(save_dir, f'{n:06d}.{image_format}'), 'wb') as fp:
                    fp.write(image_data)
                n += 1
            except (requests.RequestException, IOError) as e:
                print(f'Error occurred when downloading image: {e}')
    print(f'Successfully downloaded {n} images to {save_dir} directory.')


if __name__ == "__main__":
    # 从终端获取用户输入的关键词和要下载的图片数量和图片格式
    keyword = input('请输入要搜索的图片关键词：')
    num_images = input('请输入要下载的图片数量：')
    image_format = input('请输入要下载的图片格式（默认为 jpg）：') or 'jpg'
    max_width = input('请输入图片的最大宽度（默认为不限制）：') or None
    max_height = input('请输入图片的最大高度（默认为不限制）：') or None
    if max_width and max_height:
        max_size = (int(max_width), int(max_height))
    else:
        max_size = None
    num_images = int(num_images)
    # 构造保存图片的目录
    save_dir = os.path.join('.', 'images', keyword)
    # 调用函数进行图片下载
    get_images_from_baidu(keyword, num_images, save_dir, image_format, max_size)

运行结果就是这样