# 载入requests 模块,用来模拟浏览器行为,发送HTTP 请求,并处理HTTP 响应的功能。
import requests
# 载入re模块(能按某种模式匹配一系列有相似特征的字符串)
import re
# 载入time模块
import time
# 定义一个网址
url="http://10.1.1.167/python-spider/"
# 自定义请求头部(随便找一个)
headers= {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36"
}
# 1.定义一个获取网页源码的函数
def get_http_res_content(url):
# 发送一个get请求,返回为二进制(content)
res= requests.get(url= url, headers= headers)
return res.content
# decode()将二进制进行转码
html= get_http_res_content(url).decode()
# print(html)
# 2.定义一个获取图片路径的函数
def get_img_path_list(html):
# 将以style/ 开头且 .jpg结尾的筛选出来,findall返回一个列表
img_path_list= re.findall(r"style/\w*\.jpg", html)
return img_path_list
img_path_list= get_img_path_list(html)
# 对图片的路径进行遍历(遍历一次,下载一次)
for img_path in img_path_list:
# print(img_path)
# 将网址和图片地址进行拼接,拼接成完整地址
img_url= url+ img_path
# 获取图片内容
img= get_http_res_content(img_url)
# print(img)
# 定义图片存储路径,time.time()当前时间
img_save= f"./images/{time.time()}.jpg"
# 以写入、二进制的形式打开文件
with open(img_save,"wb") as f:
f.write(img)
Python脚本--爬取网页图片
最新推荐文章于 2024-08-10 23:14:03 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)