爬取百度图片,并存入本地文件中。
例:
爬取的是怪兽大学百度图片,并存入本地(嘿嘿安利大家,非常励志的一部电影,看了三次)
首先我们找到图片的链接,并将json格式解析,
代码如下:
import requests
req = requests.get(url=url)
req.encoding = ‘UTF-8’
souce = req.text
json_data = json.loads(souce)
data1 = json_data[‘data’]
将data1 依次遍历输出,并创建路径,将图片存取到本地文件中
代码如下:
for data in data1:
try: #因为有的链接中含空格等其他格式,要抛出异常。
image_url = data[‘thumbURL’]
except:
continue
root = “F://spider_image//” # 根目录
path = root + image_url.split(’/’)[-1] # 保存目录为根目录加上url链接以反斜杠分割的最后一个部****分,也即path为本地路径中与图片最后名称一致的文件名称
try:
if not os.path.exists(root): # 如果根目录不存在就创建目录
os.mkdir(root)
if not os.path.exists(path): # 如果文件不存在,就利用代码获取网上的文件
r = requests.get(image_url)
r = requests.get(image_url)
with open(path, ‘wb’) as f:
f.write(r.content)
f.close()
print(“file save successfully”)
else:
print(“such file existed”)
except:
print(“failed”)
结果如图: