合适麻烦多多关照i👍👍😊
爬虫爬取图片需要满足以下几个条件:
-
爬取目标网站允许爬虫访问:有些网站会设置反爬虫机制,如robots.txt文件,限制爬虫访问。在爬取图片之前,需要确保目标网站允许爬虫访问。可以通过查看robots.txt文件或者网站的使用协议来确定是否可以爬取。
-
爬虫代码:需要编写合适的爬虫代码来实现图片的爬取。爬虫代码通常使用Python等编程语言来实现,使用第三方库(如BeautifulSoup、Scrapy等)来解析网页、获取图片链接,并使用HTTP请求来下载图片。
-
图片链接提取:在爬虫代码中,需要通过解析网页的HTML结构,提取出图片的链接。这可以通过使用正则表达式、XPath、CSS选择器等方式来实现。
-
图片下载:获取到图片链接后,需要通过HTTP请求下载图片并保存到本地或者存储到数据库中。可以使用Python的requests库来发送HTTP请求,并使用PIL或者OpenCV等库来保存下载的图片。
-
存储与处理:爬取的图片可以保存在本地文件系统中,也可以存储在数据库中。如果需要对图片进行后续处理,如压缩、裁剪等,可以使用相应的图像处理库来实现。
需要注意的是,在进行图片爬取时,应遵守法律和道德规范,不要侵犯他人的版权和隐私。同时,也要注意爬取速度,避免对目标网站造成过大的负载压力。
这篇代码,需要注意的是,要在当然目录下先建一个保存照片的文件夹,当然,你也可以修改一下,让代码先判断是否存在该文件夹,不存在就先进行创建,这些就看你自己的想法拉
具体代码如下:
import requests
import os
import re
import io
from PIL import Image
def get_images_from_baidu(keyword, num_images, save_dir, image_format='jpg', max_size=None):
"""
从百度图片下载指定关键词的图片,并保存到指定目录中。
:param keyword: str,搜索关键词。
:param num_images: int,要下载的图片数量。
:param save_dir: str,图片保存的目录。
:param image_format: str,图片格式,默认为 'jpg'。
:param max_size: tuple,限制图片的最大尺寸,格式为 (width, height)。
"""
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
# 设置请求的 URL
url = 'https://image.baidu.com/search/acjson?'
# 初始化计数器
n = 0
# 每页显示的图片数量
rn = 30
# 计算需要请求的页数
page_num = (num_images + rn - 1) // rn
# 循环遍历每一页,获取图片链接并下载保存
for pn in range(0, rn * page_num, rn):
# 请求参数
params = {
'tn': 'resultjson_com',
'logid': '7603311155072595725',
'ipn': 'rj',
'ct': 201326592,
'is': '',
'fp': 'result',
'queryWord': keyword,
'cl': 2,
'lm': -1,
'ie': 'utf-8',
'oe': 'utf-8',
'adpicid': '',
'st': -1,
'z': '',
'ic': '',
'hd': '',
'latest': '',
'copyright': '',
'word': keyword,
's': '',
'se': '',
'tab': '',
'width': '',
'height': '',
'face': 0,
'istype': 2,
'qc': '',
'nc': '1',
'fr': '',
'expermode': '',
'force': '',
'cg': '',
'pn': pn,
'rn': rn,
'gsm': '1e',
'1618827096642': ''
}
# 发送请求
response = requests.get(url=url, headers=headers, params=params)
# 检查响应是否成功
if response.ok:
print('Request success.')
# 解析响应数据并提取图片链接
response.encoding = 'utf-8'
html = response.text
image_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)
# 如果指定的目录不存在,则创建目录
if not os.path.exists(save_dir):
os.makedirs(save_dir)
# 下载并保存图片
for image_url in image_url_list:
if n >= num_images:
break
try:
# 获取图片数据
image_data = requests.get(url=image_url, headers=headers).content
# 打开图片并获取尺寸
image = Image.open(io.BytesIO(image_data))
width, height = image.size
# 如果指定了最大尺寸并且图片尺寸超过了最大尺寸,则跳过该图片
if max_size and (width > max_size[0] or height > max_size[1]):
continue
# 保存图片
with open(os.path.join(save_dir, f'{n:06d}.{image_format}'), 'wb') as fp:
fp.write(image_data)
n += 1
except (requests.RequestException, IOError) as e:
print(f'Error occurred when downloading image: {e}')
print(f'Successfully downloaded {n} images to {save_dir} directory.')
if __name__ == "__main__":
# 从终端获取用户输入的关键词和要下载的图片数量和图片格式
keyword = input('请输入要搜索的图片关键词:')
num_images = input('请输入要下载的图片数量:')
image_format = input('请输入要下载的图片格式(默认为 jpg):') or 'jpg'
max_width = input('请输入图片的最大宽度(默认为不限制):') or None
max_height = input('请输入图片的最大高度(默认为不限制):') or None
if max_width and max_height:
max_size = (int(max_width), int(max_height))
else:
max_size = None
num_images = int(num_images)
# 构造保存图片的目录
save_dir = os.path.join('.', 'images', keyword)
# 调用函数进行图片下载
get_images_from_baidu(keyword, num_images, save_dir, image_format, max_size)
运行结果就是这样