import requests
#如何爬取图片数据
url= ''
#content返回的是一进制形式的图片数据
# text(字符串) content(二进制) json()(对象)
img_data = requests.get(url=url).content
with open('./qiutu.jpg','wb') as fp:
fp.write(img_data)
import requests
import os
import re
# 创建一个文件来保存所有的图片
if not os.path.exists('./qiutu_img'):
os.mkdir('./qiutu_img')
url = 'https://xiaohua.zol.com.cn/qutu/qiushi/%d.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'}
img_counter = 1 # 图片编号计数器
for pageNum in range(1, 10): # 修改这里,你可以调整要爬取的页面数量
new_url = format(url % pageNum)
page_text = requests.get(url=new_url, headers=headers).text
ex = r'<img src="(https?://[^"]+)"' # 使用一个更简单的正则表达式来匹配图片链接
img_src_list = re.findall(ex, page_text, re.S)
for src in img_src_list:
# 使用requests.get()来解析URL并获取图片数据
response = requests.get(url=src, headers=headers)
if response.status_code == 200:
img_data = response.content
img_extension = os.path.splitext(src)[1] # 获取图片扩展名
img_name = f"{img_counter}{img_extension}" # 生成新的图片名称
imgPath = f'./qiutu_img/{img_name}'
with open(imgPath, 'wb') as fp:
fp.write(img_data)
print(f"{img_name}下载成功!!!")
img_counter += 1 # 增加图片编号计数器