最近看到一篇不错的文章,地址忘了,主要是使用python爬取图片的。感觉方法不错,很巧妙,就是利用流的思想往下荡。由于平时只用python写过爬取文字的,并没有过多涉猎这种爬取图片的,所以记录一下,以备日后使用,只上代码:
# coding=utf-8
import urllib
import urllib2
import re
# 对代理进行设置
#proxy_info = {'host': 'web-proxy.oa.com', 'port': 8080}
#proxy_support = urllib2.ProxyHandler({"http": "http://%(host)s:%(port)d" % proxy_info})
#opener = urllib2.build_opener(proxy_support)
#urllib2.install_opener(opener)
url = "http://xxxxx"
request = urllib2.Request(url)
page = urllib2.urlopen(url)
html = page.read()
reg=r'<img.*src="(.*?)".*?/>'
imge=re.compile(reg)
imglist=re.findall(imge,html)
x=0
for imgurl in imglist:
if imgurl.startswith("http"):
resp = urllib2.urlopen(imgurl)
respHtml = resp.read()
picFile = open('%s.jpg' % x, "wb")
picFile.write(respHtml)
picFile.close()
x = x+1
print 'done'