做图像处理,经常需要上网上下载图像,一个个的下载很慢, 所以学习 爬虫程序。
http://www.cnblogs.com/fnng/p/3576154.html 参考网址
http://blog.csdn.net/huangxy10/article/details/8120106 c++ 爬虫代码,
,有些图片不错,
就想用Python写几行代码把图片抓下来。
事实证明Python还是蛮好用的。
用正则表达式的模块re就可以很轻松对网站源代码查找.jpg的字符串。
配合标准命名规则,可以找一些自己需要的资源。
如下载gif、png等,注意修改命名参数里的扩展名。
用urllib.urlretrieve()进行下载。
#!/usr/bin/python
#coding:gbk
# August, 2013.07.27
import re
import urllib
def getHtml(url):
def getImg(html):
html = getHtml("http://blog.sina.com.cn/augustpku")
getImg(html)