python urlretrieve_Python爬虫（8）解决urlretrieve下载不完整问题且避免用时过长

最新推荐文章于 2022-11-04 22:22:23 发布

weixin_39949506

最新推荐文章于 2022-11-04 22:22:23 发布

阅读量238

点赞数

文章标签： python urlretrieve

本文介绍了如何通过设置超时时间和使用重试机制，解决使用urllib下载文件时可能出现的ContentTooShortError问题，并避免因网络问题导致的长时间重试和死循环。代码示例中，利用socket模块设置超时时间，当发生超时时，限定重试次数以提高下载效率。

摘要由CSDN通过智能技术生成

def auto_down(url,filename):

try:

urllib.urlretrieve(url,filename)

except urllib.ContentTooShortError:

print 'Network conditions is not good.Reloading.'

auto_down(url,filename)

但是经笔者测试，下载文件出现urllib.ContentTooShortError且重新下载文件会存在用时过长的问题，而且往往会尝试好几次，甚至十几次，偶尔会陷入死循环，这种情况是非常不理想的。为此，笔者利用socket模块，使得每次重新下载的时间变短，且避免陷入死循环，从而提高运行效率。

以下为代码：

import socket

import urllib.request

#设置超时时间为30s

socket.setdefaulttimeout(30)

#解决下载不完全问题且避免陷入死循环

try:

urllib.request.urlretrieve(url,image_name)

except socket.timeout:

count = 1

while count <= 5:

try:

urllib.request.urlretrieve(url,image_name)

break

except socket.timeout:

err_info = 'Reloading for %d time'%count if count == 1 else 'Reloading for %d times'%count

print(err_info)

count += 1

if count > 5:

print("downloading picture fialed!")

本次分享到此结束，如有不足之处，还请批评指正！欢迎大家交流~~

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39949506

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫开发（二）：整站爬虫与Web挖掘

01-08

444

0 介绍在互联网这个复杂的环境中，搜索引擎本身的爬虫，出于个人目的的爬虫，商业爬虫肆意横行，肆意掠夺网上的或者公共或者私人的资源。显然数据的收集并不是为所欲为，有一些协议或者原则还是需要每一个人注意。本文主要介绍关于爬虫的一些理论和约定协议，然后相对完整完成一个爬虫的基本功能。 1 协议一般情况下网站的根目录下存在着一个robots.txt的文件，用于告诉爬虫那些文件夹或者哪些文件是网站的拥有者或者管理员不希望被搜索引擎和爬虫浏览的，或者是不希望被非人类的东西查看的。但是不仅仅如此，在这个文件中，

python抓取数据时失败_爬取数据缺失的补坑，Python数据爬取的坑坑洼洼如何铲平...

weixin_39549110的博客

11-28

1433

渣渣业余选手讲解，关于爬取数据缺失的补坑，一点点关于Python数据爬取的坑坑洼洼如何铲平，个人的一些心得体会，还有结合实例的数据缺失的补全，几点参考，仅供观赏，如有雷同，那肯定是我抄袭的！在使用Python爬取数据的过程中，尤其是用你自身电脑进行数据抓取，往往会有网络延迟，或者兼职网管拔插重启网络的情况发生，这是渣渣碰到的非常普遍的情况，当然推荐还是推荐使用服务器抓取数据。当然这是比较常见和可控...

参与评论您还未登录，请先登录后发表或查看评论

python urlretrieve 失败_图片爬虫时候遇到问题 urllib.request.urlretrieve 下载到指定文件夹不成功？...

weixin_39567943的博客

12-22

1051

如果下载到D盘也是没有问题的，下载到我建立的目录下就有问题(主要是我想在D盘建立以URL这个问号前面的数字为名字的目录如(http://v.yupoo.com/photos/196...')中的46975340就是不行，因为有很多链接，每个链接的这个数字不同，我想用这个数字作为文件夹的名字，存放这个链接下载下来的图片)源码如下：import urllib.requestimport reimpor...

python urlretrieve 失败_Python urlretrieve无法下载某些图像

weixin_39541693的博客

12-22

571

我用这个代码片断下载图片：urllib.request.urlretrieve('https://www.facebook.com/photo/download/?fbid=166644340383715','image_name.jpg')下载成功，就像其他的图像，但是当我试图打开它，我得到了错误：Unknown file format, empty/damaged file or file n...

python urlretrieve下载视频的速度_urllib.urlretrieve 方法下载文件不完整，源文件40mb，下载后之后100kb。...

weixin_39955351的博客

12-22

330

# coding=utf-8import subprocessimport urllibimport osimport timefrom socket import *def pid_tomcat():child = subprocess.Popen(['pgrep', '-f', "tomcat"], stdout=subprocess.PIPE, shell=False)response = ...

Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

10年职场两茫茫，35岁凄凉奈若何

08-12

295

Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

被监督写博客-Day7

veinard_F的博客

10-10

246

今天在ctftime上找了比赛，但是吧，不太行，只能等着明天结束后的wp了。。。回归刷题日常题目一： [极客大挑战 2019]HardSQL（说真的，真的不喜欢SQL注入的题。。。）打开题目后又是熟悉的界面。。。看了wp说是报错注入，学习一下两个函数 updatexml()：更新xml文档语法updatexml(目标xml文档，xml路径，更新的内容) extractvalue() :对XML文档进行查询的函数语法：extractvalue(目标xml文档，xml路径) 两个函数的第二个参数

python爬虫下载重试_python爬虫多次请求超时的几种重试方法

weixin_29216957的博客

02-04

380

标签：ltewww很多eemzipretexchangetrycoding第一种方法headers = Dict()url = ‘https://www.baidu.com‘try:proxies = Noneresponse = requests.get(url, headers=headers, verify=False, proxies=Non...

Python爬虫实战：爬取官员官方信息

LucyGill的博客

09-26

5470

最近导师给了一个任务：用Python爬取中国官员的官方信息，然后将信息中的关键信息（时间地点任务blablabla）抽取出来，绘制他们的关系图。千里之行始于足下，我就从Python爬虫开始。首先上代码： from urllib import request from bs4 import BeautifulSoup url='http://cpc.people.com.cn/gbzl/

Python网络爬虫小试刀——抓取ZOL桌面壁纸图片3

u011197105的博客

12-29

1458

获得一个类型页面中所有集合中所有的图片，使用了多线程，线程锁等使其并发执行以增加效率。

Python 3 爬虫之批量下载字帖图片

岁月如歌

10-19

1391

朋友想下载这62个网页中的字帖图片：http://www.yac8.com/news/11003.html 一、要点 1. Chrome 「审查元素」中看到的源代码与真实的源码不同。 2. 图片网址附近源码：获取源码的正则表达式： ]*?src="(.+?\.jpg)"[^>]*?>建议使用Expresso，带有语义分析功能 3. 网页编码是GB2312：

[Python]分享一个http连接重试的装饰器

orangleliu 笔记本

09-12

5197

这个是python2.7x 的版本，如果mouxie

下载网页_重试下载

天啊野

01-08

767

1.4.1下载网页这是《用python写网络爬虫》中的一小节，都是书上的内容（后面的代码分析也是基于这本书的），只不过书上是python2，我改成了python3 简单修改后的代码是这样的： import urllib.request def download(url,num_retries=2): #url是网址参数，num_retries是对于那些5xx错误，重试下载的次数

python爬虫爬取图片速度提升

weixin_63583875的博客

11-04

576

Python爬虫提速

curl: (60) SSL certificate problem: EE certificate key too weak解决办法

喜欢打篮球的普通人

12-15

5945

文章目录原因：使用以下命令总是失败 yum makecache CentOS-8 - Base 0.0 B/s | 0 B 00:00 Failed to download metadata for repo 'base' Error: Failed to download metadata for repo 'ba

[python]解决urllib.urlretrieve()下载不完全的问题