步骤:
1.先把某个网页源码手动保存到本地一个文本文件;(暂时,以后想想怎么更加智能化)
2.利用正则表达式匹配html中的img 标签,并从分组中提取出链接并存为list;
3.下载图片到制定文件夹。
import re
import io
import urllib.request
str=[]
try:
f = open(r'F:\\Python\\test.txt', 'r')
str=f.read()
except IOError as e:
print(e)
finally:
f.close()
#print(str)
pa = re.compile(r'<img.*?src="(.*?\.(?:jpg|jpeg|gif|bmp|png))"')
photo_link=[]
obj=re.findall(pa,str)
img=[]
for x in range(0,len(obj)):
print("第 %d 条图片连接:%s" %(x,obj[x]))
response = urllib.request.urlopen(obj[x])
img.append(response.read())
with open(r'F:\\img\\%d.jpg' %(x+1), 'wb') as f:
f.write(img[x])
尚待解决的问题:
1.html文件编码问题,以上程序得以运行,是因为直接手工复制网页源代码,并保存为文本文件,若直接从一个html文件中读取,尚未成功。
2.获得图片链接以后,如何进一步依据图片大小,原有html标签信息进行细化,存放入不同的文件目录,甚至数据库,还有待研究。