爬虫卡死问题带图片保存的urlretrieve 和urlopen

最新推荐文章于 2023-03-06 14:00:01 发布

bining98

最新推荐文章于 2023-03-06 14:00:01 发布

阅读量4k

点赞数

分类专栏：日常出错文章标签：爬虫图片数据

本文链接：https://blog.csdn.net/qq_22373411/article/details/78904756

版权

日常出错专栏收录该内容

1 篇文章 0 订阅

订阅专栏

爬虫卡死问题带图片保存的urlretrieve 和urlopen

爬虫卡死问题带图片保存的urlretrieve 和urlopen

之前做个小爬虫爬点文字混合图片的东西，数据量小还可以处理，数据一大自己假死，也没有错误提示，搞得自己有点烦，在这总结一下：

原保存图片子函数

########使用当前执行时间来命名图片，lujing为图片存储位置，findgeshi为正则表达式从网址中提取图片格式，用try和except来处理异常，返回图片名称：########
def save_pictureurl(url,t0,lujing):
try:
urllib.request.urlopen(url,timeout=5)
t1 = time.clock()
timee = t1 - t0#形成时钟的名字
tupiangeshi = re.search(findgeshi, url)#确定格式是png还是gif还是jpg
ID1 = lujing +’\’+ str(timee) + ‘.’ + tupiangeshi.group(0)#串成总ID
ID2 = str(timee) + ‘.’ + tupiangeshi.group(0)
urllib.request.urlretrieve(url, ID2)
return (ID1)
except urllib.request.URLError as e:#网址无法访问的错误返回
print(“error”,e)
return (‘ERROR HTTP’)
except socket.timeout:
print(‘timeouterror’)
return (‘TIMEERROR HTTP’)
except :
return (‘UNKNOWN ERROR’)

“`

错误原因

本来想用openurl先打开网址检查是否能打开网址，然后用urlretrieve保存图片，但是还是会有假死现象，原来如果urlretrieve在执行的时候本来可以打开的网址由于网速原因没有打开所以没有返回，也会导致假死，而且urlretrieve没有timeout设置值所以换成文件指令的读写命令

更改后的保存图片子函数

#####open、file.write 实现读写，urlopen 判断是否超时#######
def save_pictureurl(url,t0,lujing):
try:
aa=urllib.request.urlopen(url,timeout=5).read()
t1 = time.clock()
timee = t1 - t0#形成时钟的名字
tupiangeshi = re.search(findgeshi, url)#确定格式是png还是gif
ID1 = lujing +’\’+ str(timee) + ‘.’ + tupiangeshi.group(0)#串成总ID
# ID2 = str(timee) + ‘.’ + tupiangeshi.group(0)
# urllib.request.urlretrieve(url, ID2)
with open(ID1, ‘wb’) as file:
file.write(aa)
file.close()
return (ID1)
except urllib.request.URLError as e:#网址无法访问的错误返回
print(“error”,e)
return (‘ERROR HTTP’)
except socket.timeout:
print(‘timeouterror’)
return (‘TIMEERROR HTTP’)
except :
return (‘UNKNOWN ERROR’)

可以开始愉快的爬辣

bining98

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫卡死问题带图片保存的urlretrieve 和urlopen

爬虫卡死问题带图片保存的urlretrieve 和urlopen原保存图片子函数错误原因更改后的保存图片子函数可以开始愉快的爬辣爬虫卡死问题带图片保存的urlretrieve 和urlopen之前做个小爬虫爬点文字混合图片的东西，数据量小还可以处理，数据一大自己假死，也没有错误提示，搞得自己有点烦，在这总结一下：原保存图片子函数########使用当前执行时间来命名图片，lujing为
复制链接

扫一扫