python3 爬虫爬取网页图片详解

最新推荐文章于 2024-07-30 11:14:47 发布

风欲来花满楼

最新推荐文章于 2024-07-30 11:14:47 发布

阅读量1k

点赞数 1

分类专栏： python 爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/qq_42084004/article/details/80264587

版权

python 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

#导入需要使用的模块

import re
from urllib import request,error

#爬取网页源代码

url=”https://www.csdn.net/”
data=request.urlopen(url).read().decode(“Utf-8”)

#通过正则表达式获取.jpg结尾的图片url链接地址

pat=’src=”(.*?.jpg)”’
allbook=re.compile(pat).findall(data)

#遍历这个列表

for i in range(0,len(allbook)):
# try增强爬虫的稳定输出
try:

    # 指定文件保存路径以及保存方式
    path="C:/Users/ASUS/Desktop/markdown/img/csdnimg"+str(i)+".jpg"
    abc="https:"+allbook[i]
    #将jpg地址远程数据下载到本地
    request.urlretrieve(abc,filename=path)
    print("爬取成功")
# 将错误信息临时存给e
except error.URLError as e:
    if hasattr(e,"code"): #判断是否有异常状态编码
        print(e.code)      #输出异常状态编码
    if hasattr(e,"reason"): # 判断是否有异常原因
        print(e.reason)     #输出异常原因

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

风欲来花满楼

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python3 爬虫爬取网页图片详解

#导入需要使用的模块import re from urllib import request,error#爬取网页源代码url=”https://www.csdn.net/” data=request.urlopen(url).read().decode(“Utf-8”)#通过正则表达式获取.jpg结尾的图片url链接地址pat=’src=”(.*?.jpg)”’ all...
复制链接

扫一扫