python3 爬虫 爬取网页图片详解

#导入需要使用的模块

import re
from urllib import request,error

#爬取网页源代码

url=”https://www.csdn.net/”
data=request.urlopen(url).read().decode(“Utf-8”)

#通过正则表达式获取.jpg结尾的图片url链接地址

pat=’src=”(.*?.jpg)”’
allbook=re.compile(pat).findall(data)

#遍历这个列表

for i in range(0,len(allbook)):
# try增强爬虫的稳定输出
try:

    # 指定文件保存路径以及保存方式
    path="C:/Users/ASUS/Desktop/markdown/img/csdnimg"+str(i)+".jpg"
    abc="https:"+allbook[i]
    #将jpg地址远程数据下载到本地
    request.urlretrieve(abc,filename=path)
    print("爬取成功")
# 将错误信息临时存给e
except error.URLError as e:
    if hasattr(e,"code"): #判断是否有异常状态编码
        print(e.code)      #输出异常状态编码
    if hasattr(e,"reason"): # 判断是否有异常原因
        print(e.reason)     #输出异常原因
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值