python抓取数据时失败_爬取数据缺失的补坑，Python数据爬取的坑坑洼洼如何铲平...

最新推荐文章于 2023-09-25 18:27:42 发布

weixin_39549110

最新推荐文章于 2023-09-25 18:27:42 发布

阅读量1.4k

点赞数

文章标签： python抓取数据时失败

本文分享了Python数据爬取过程中遇到的常见问题及解决方案，包括设置requests的timeout来避免网络延迟，利用超时重试机制提高数据获取的成功率，使用urlretrieve下载图片时的异常处理，以及通过time.sleep防止请求过快导致的数据丢失。此外，还提供了一个完整的数据补坑实例，展示如何处理下载失败的图片。

摘要由CSDN通过智能技术生成

渣渣业余选手讲解，关于爬取数据缺失的补坑，一点点关于Python数据爬取的坑坑洼洼如何铲平，个人的一些心得体会，还有结合实例的数据缺失的补全，几点参考，仅供观赏，如有雷同，那肯定是我抄袭的！

在使用Python爬取数据的过程中，尤其是用你自身电脑进行数据抓取，往往会有网络延迟，或者兼职网管拔插重启网络的情况发生，这是渣渣碰到的非常普遍的情况，当然推荐还是推荐使用服务器抓取数据。

当然这是比较常见和可控的网络爬取的异常，处理还是有不少方法或者说是方案的，也是这里着重谈谈的爬取数据缺失的补坑。

补坑一：timeou=x 的设置

requests抓取网页数据中，timeou属性建议一定要设置，一般为timeou=5，建议设置5s以上，如果你的网络差，或者抓取的网页服务器延迟比较厉害，比如国内访问国外网站服务器，建议设置10s以上！

为什么要设置imeou=x呢？

避免网络延迟，程序卡死，死机，连报错都不会出现，一直停滞在网页访问的过程中，这在 pyinstaller 打包的exe程序使用中尤为常见！

超时（timeout）

为防止服务器不能及时响应，大部分发至外部服务器的请求都应该带着 timeout 参数。

在默认情况下，除非显式指定了 timeout 值，requests 是不会自动进行超时处理的。

如果没有 timeout，你的代码可能会挂起若干分钟甚至更长时间。

连接超时指的是在你的客户端实现到远端机器端口的连接时（对应的是 connect() ），Request 会等待的秒数。

一个很好的实践方法是把连接超时设为比 3 的倍数略大的一个数值，因为 TCP 数据包重传窗口 (TCP packet retransmission window) 的默认大小是 3。

在爬虫代理这一块我们经常会遇到请求超时的问题，代码就卡在哪里，不报错也没有requests请求的响应。

通常的处理是在requests.get()语句中加入timeout限制请求时间req = requests.get(url, headers=headers, proxies=proxies, timeout=5)

如果发现设置timeout=5后长时间不响应问题依然存在，可以将timeout里的参数细化

作出如下修改后，问题就消失了req = requests.get(url, headers=headers, proxies=proxies, timeout=(3,7))

timeout是用作设置响应时间的，响应时间分为连接时间和读取时间，timeout(3,7)表示的连接时间是3，响应时间是7，如果只写一个的话，就是连接和读取的timeout总和！

来源：CSDN博主「明天依旧可好」

补坑二：requests超时重试

requests访问重试的设置，你非常熟悉的错误信息中显示的是 read timeout（读取超时）报错。

超时重试的设置，虽然不能完全避免读取超时报错，但能够大大提升你的数据获取量，避免偶尔的网络超时而无法获取数据，避免你后期大量补坑数据。

一般超时我们不会立即返回，而会设置一个三次重连的机制。def gethtml(url):

i = 0

while i < 3:

try:

html = requests.get(url, timeout=5).text

return html

except requests.exceptions.RequestException:

i += 1

其实 requests 已经帮我们封装好了。（但是代码好像变多了...）import time

import requests

from requests.adapters import HTTPAdapter

s = requests.Session()

s.mount('http://', HTTPAdapter(max_retries=3))

s.mount('https://', HTTPAdapter(max_retries=3))

print(time.strftime('%Y-%m-%d %H:%M:%S'))

try:

r = s.get('http://www.google.com.hk', timeout=5)

return r.text

最低0.47元/天解锁文章

weixin_39549110

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python抓取数据时失败_爬取数据缺失的补坑，Python数据爬取的坑坑洼洼如何铲平...

渣渣业余选手讲解，关于爬取数据缺失的补坑，一点点关于Python数据爬取的坑坑洼洼如何铲平，个人的一些心得体会，还有结合实例的数据缺失的补全，几点参考，仅供观赏，如有雷同，那肯定是我抄袭的！在使用Python爬取数据的过程中，尤其是用你自身电脑进行数据抓取，往往会有网络延迟，或者兼职网管拔插重启网络的情况发生，这是渣渣碰到的非常普遍的情况，当然推荐还是推荐使用服务器抓取数据。当然这是比较常见和可控...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。