import requests
import re
import time
# 引用模块
url="http://192.168.190.67/pythonSpider/"
# 请求的网址
def get_html(url) :
# 用于发送请求并获取网页的HTML内容。
res = requests.get(url = url)
# 发送html请求(url = url )形参=实参
html = res.text
# 响应内容的字符串
return html
#将字符串内容返回
def get_img_path_list(html) :
# 用于从HTML内容中提取图片的路径列表。
'''
style/u24020836931378817798fm170s6BA8218A7B2128178FA0A49
style/u1257164168471355846fm170s9A36CD0036AA1F0D5E9CC09C
'''
# 网页图片地址
img_path_re = r"style/\w+\.jpg"
# 利用正则表达对图片地址进行过滤,\w+匹配所有的数字字母+
img_path_list = re.findall(img_path_re, html)
return img_path_list
def download_img(img_path) :
# 用于下载指定路径的图片并保存到本地。
full_url = url + img_path
print(f"Image URL: {full_url}")
res = requests.get(url = full_url)
img_save_path = f"./img/{time.time()}.jpg"
# 下载后储存的路径以时间戳来命名图片名称。
with open(img_save_path, 'wb') as f :
f.write(res.content)
#content 返回的是二进制数据
html = get_html(url = url)
img_path_list = get_img_path_list(html = html)
for img_path in img_path_list:
download_img(img_path)