利用python 抓取图片
下面是有关python 的代码和解释
#!/usr/bin/python
import reimport urllib.request
def getHtml(url):
page=urllib.request.urlopen(url)
html=page.read()
print (html)
return html
def getImg(html):
html = html.decode('GBK')
reg=r'src="(.*?\.jpg)" width'
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
x=0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,'%s.jpg' %x)
x=x+1
html=getHtml("http://desk.zol.com.cn/bizhi/6412_78899_2.html")
getImg(html)
######### 脚本说明思路 ############
# 我们要用正则 和 urllib 模块
#首先我们要获取页面的源代码 (利用 URLopen)
#我们要读取页面的源代码并保存在一个变量当中(获取源代码.read())
#用正则匹配页面源代码下载的图片链接
#转换源代码文件的格式
#写一个正则来匹配下载的连接
#对正则进行编译使其运行更加的高效
#把匹配的正则值给一个列表
#遍历列表
#依次下载列表中的值