图片爬虫程序

做图像处理,经常需要上网上下载图像,一个个的下载很慢, 所以学习 爬虫程序。 

http://www.cnblogs.com/fnng/p/3576154.html  参考网址

http://blog.csdn.net/huangxy10/article/details/8120106  c++ 爬虫代码, 


,有些图片不错,
就想用Python写几行代码把图片抓下来。
事实证明Python还是蛮好用的。
用正则表达式的模块re就可以很轻松对网站源代码查找.jpg的字符串。
配合标准命名规则,可以找一些自己需要的资源。
如下载gif、png等,注意修改命名参数里的扩展名。
用urllib.urlretrieve()进行下载。


#!/usr/bin/python
#coding:gbk
# August, 2013.07.27

import re
import urllib

def getHtml(url):
      page = urllib.urlopen(url)
      html = page.read()
      return html

def getImg(html):
      reg = r'src="(.*?\.jpg)" '
      imgre = re.compile(reg)
      imglist = re.findall(imgre,html)
      x = 0
      for imgurl in imglist:
            urllib.urlretrieve(imgurl, '%s.jpg' %x)
            x += 1

html = getHtml("http://blog.sina.com.cn/augustpku")

getImg(html)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值