python爬虫（1）下载任意网页图片

最新推荐文章于 2024-03-22 08:12:01 发布

枫奇

最新推荐文章于 2024-03-22 08:12:01 发布

阅读量1.8w

点赞数 2

分类专栏： python爬虫 python爬虫专题文章标签： python 图片 spider

本文链接：https://blog.csdn.net/qiqiyingse/article/details/51879501

版权

python爬虫同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

python爬虫专题

22 篇文章 61 订阅

订阅专栏

可以下载任意网页图片

本文是一个万能油，当然本身也存在很多缺陷，因为本身写的正则表达式比较简单

但是作为爬虫的练手项目，以及本事的思路还是很有借鉴意义的

#!/usr/bin python
#--*-- coding:utf-8 --*--
import os
import urllib
import re
import time
import urllib2    
import HTMLParser

 
#获取页面内容    
def gethtml(url):        
    print u'start crawl %s ...' % url    
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0'}    
    req = urllib2.Request(url=url,headers=headers)    
    try:    
        html = urllib2.urlopen(req).read().decode('utf-8')    
        html=HTMLParser.HTMLParser().unescape(html)#处理网页内容， 可以将一些html类型的符号如" 转换回双引号      
    except urllib2.HTTPError,e:    
        print u"连接失败，错误原因：%s " % e.code    
        return None    
    except urllib2.URLError,e:    
        if hasattr(e,'reason'):    
            print u"连接失败，错误原因:%s " % e.reason    
            return None    
    return html    
 
def getImageList(html):
    #reg = "http:*?\.jpg"
    reg = 'http[^"}]*?(?:\.jpg|\.png|\.jpeg)'#匹配图片url的正则表达式
    imgre = re.compile(reg)
    imgList = re.findall(imgre,html)
    return imgList
#打印所有的图片的地址并存贮到本地 
def printImageList(imgList):
    with open("webImage/url.txt","wb+") as f:
       for i in imgList:
            print i
            f.write(i+"\r\n")
#下载存贮图片到本地
def download(imgList, page):
    x = 1
    for imgurl in imgList:
        print 'Download '+imgurl
        urllib.urlretrieve(imgurl,'./webImage/%s_%s.jpg'%(page,x))
        x+=1
    print 'Download file '+ str(x)+ ' fiel\'s end'
 
 
def downImageNum(pagenum):
    page = 1
    pageNumber = pagenum
    while(page <= pageNumber):
        html = getHtml(url)#获得url指向的html内容
        imageList = getImageList(html)
        printImageList(imageList)#打印所有的图片的地址
        download(imageList,page)#下载所有的图片
        page = page+1
 
if __name__ == '__main__':
    print '''  
            *****************************************   
            **   Welcome to python of Image        **   
            **      Modify on 2017-05-09           **   
            **      @author: Jimy _Fengqi          **   
            *****************************************  
    '''   
    os.system('mkdir webImage')#创建文件存贮目录
    url = raw_input("enter the web page\n URL:")
	if not url:
		print 'the url in None , please try again'
		break
    downImageNum(1)
    time.sleep(10)