要爬取网页上的图片,首先需要获取图片的URL地址,可以利用Python的正则表达式处理对象re来完成URL地址的获取,代码如下:
# <-*- coding:UTF-8 -*->
import requests
import re
res=requests.get(url="http://www.woniuxy.com/qynx.html")
res.encoding="utf-8"
print(res.text)
#定义一个列表,用于保存图片地址
image_list=[]
# .+?是需要提取内容的组,前后为左右边界
pattern="(src=\")(.+?)(.png\")"
for match in re.findall(pattern,res.text):
if not match[1].startswith("http://"):
url="http://www.woniuxy.com/train/"+match[1]+".png"
image_list.append(url)
print(url)
#遍历整个地址列表进行图片下载
for image_url in image_list:
response_image=requests.get(image_url)
#根据URL解析出图片的原始文件名
temp=image_url.split("/")
filename=temp[len(temp)-1]
#注意这里需要手动创建目录
with open("D:/woniuImage/"+filename,"wb") as file:
file.write(response_image.content)
运行代码下载完成后,可以去电脑“D:/woniuImage/”目录下查看爬取的图片