图片爬虫程序

最新推荐文章于 2022-06-29 22:28:36 发布

baobei0112

最新推荐文章于 2022-06-29 22:28:36 发布

阅读量533

点赞数

分类专栏： C++

C++ 专栏收录该内容

50 篇文章 2 订阅

订阅专栏

做图像处理，经常需要上网上下载图像，一个个的下载很慢，所以学习爬虫程序。

http://www.cnblogs.com/fnng/p/3576154.html 参考网址

http://blog.csdn.net/huangxy10/article/details/8120106 c++ 爬虫代码，

，有些图片不错，

就想用Python写几行代码把图片抓下来。

事实证明Python还是蛮好用的。

用正则表达式的模块re就可以很轻松对网站源代码查找.jpg的字符串。

配合标准命名规则，可以找一些自己需要的资源。

如下载gif、png等，注意修改命名参数里的扩展名。

用urllib.urlretrieve()进行下载。

#!/usr/bin/python

#coding:gbk

# August, 2013.07.27

import re

import urllib

def getHtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

def getImg(html):

reg = r'src="(.*?\.jpg)" '

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

x = 0

for imgurl in imglist:

urllib.urlretrieve(imgurl, '%s.jpg' %x)

x += 1

html = getHtml("http://blog.sina.com.cn/augustpku")

getImg(html)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。