python 解析网页,将抓取到的图片保存到本地

python解析网页内容,将抓取到的图片保存到本机。



# -*- coding=utf8 -*-
# @author:fw
from urllib import request                          #引用urllib模块
import re
baseurl=''
saveDir=''
#解析网址,将图片保存到本地
def execUrl(url,savepath):
    global baseurl,saveDir
    baseurl=url
    saveDir=savepath
    response=request.urlopen(url)   #打开网址
    page=response.read()                                #读取网址内容(读取结果为byte字节流)
    page=page.decode('utf-8')                           #读取的结果转普通文本
    imglist=getImgList(page)
    saveImg(imglist)

#将网络图片保存到本机
def saveImg(imglist):
    global baseurl,saveDir
    x=0
    for path in imglist:
        print(path)
        request.urlretrieve(path, saveDir+'%s.jpg' % x)
        x+=1

#解析网页源码,返回所有图片
def getImgList(html):
    reg1 = r'src="(.+?\.jpg)"'
    pattern1=re.compile(reg1)
    imglist1=pattern1.findall(html)
    
    reg2= r'url\((.+?\.jpg)\)'
    pattern2=re.compile(reg2)
    imglist2=pattern2.findall(html)
    
    imglist=list(set(imglist1+imglist2))
    return imglist 

execUrl('http://www.51aspx.com','D://ok//')


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值