需要 requests 包,需要环境变量的配置
# -*- coding:utf-8 -*-
import re # 导入正则表达式模块,提取网页中所需要的内容
import requests
import random # 随机生成一个实数,它的取值范围[0,1]
def spiderPic(html,keyword):
print '正在查找 :' + keyword + ' 对应的图片,正在从百度图片中下载文件 ....'
for addr in re.findall('"objURL":"(.*?)"',html,re.S):
print '现在正在爬取URL地址:'+str(addr)[0:50]+"..."
try:
pics = requests.get(addr,timeout=10) # 请求图像的URL地址(最大时间10s)
except requests.exceptions.ConnectionError:
print '您当前URL地址请求错误 !'
continue
fq = open('C:\\Users\\Administrator\\Desktop\\aa'+(str(random.randrange(0,1000,4))+'.jpg').encode('utf-8'),'wb')
fq.write(pics.content)
fq.close()
# python 的主方法
if __name__ == '__main__':
word = raw_input('请输入你想要爬去的图像关键词:')
result = requests.get('http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='+word)
# 调用函数
spiderPic(result.text,word)