GPU使用报错合集

最新推荐文章于 2024-07-05 13:07:04 发布

说文科技

最新推荐文章于 2024-07-05 13:07:04 发布

阅读量4.6k

点赞数 3

分类专栏： # pytorch 文章标签：深度学习 python GPU

喜欢文章？请私信联系作者。

本文链接：https://blog.csdn.net/liu16659/article/details/107790567

版权

pytorch 专栏收录该内容

53 篇文章 4 订阅

订阅专栏

LawsonAbs的认知与思考，望各位读者审慎阅读。

总结

文章来源：CSDN_LawsonAbs
持续更新~

1 报错：`RuntimeError: Invalid device, must be cuda device`

1.1 原因：

在不支持cuda（GPU）的机器上，妄想把模型或者数据放到GPU中，这时就会报错。

2 报错

RuntimeError: CUDA out of memory. Tried to allocate 170.00 MiB (GPU 0; 11.93 GiB total capacity; 
11.09 GiB already allocated; 35.06 MiB free; 11.31 GiB reserved in total by PyTorch)

这个时候看一下 GPU 的使用情况，如下所示：
在这里插入图片描述

可以看到这个程序是把卡1所有的显存都用上了，所以导致显存不足，那么就可以考虑是否是数据量过大导致的？我看一下我的代码，果然如此：
在这里插入图片描述
我要把 1446 *2 条句子同时用model处理，所以导致显存爆炸，当我将其变成小批量时，就可以解决这个问题了。

2.1 原因

本质原因是：显存过小，但是就程序而言是因为数据量过大。所以也就有了将数据分批的想法。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

说文科技

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tensorflow2.1.0使用GPU报错问题

12-21

如果`tf.config.list_physical_devices('GPU')`报错，你可以暂时使用`tf.test.is_gpu_available()`，看看是否能避免错误。同时，检查所有其他可能的故障点，如驱动程序和环境变量设置，以确保所有组件都处于最佳状态...

Docker 使用GPU 错误之Error could not select device driver ““ with capabilities: [[gpu]]

weixin_38906715的博客

05-19

420

错误之Error response from daemon: could not select device driver ““ with capabilities: [[gpu]]关于配置docker19使用gpu，其实只用装官方提供的toolkit即可，把github上的搬下来：Ubuntu 16.04/18.04, Debian Jessie/Stretch/Buster：distribut...

参与评论您还未登录，请先登录后发表或查看评论

试图玩大佬的AI王者出现的问题

末多末的博客

02-06

1650

参考：https://github.com/FengQuanLi/ResnetGPT 下载项目下载scrcpy的windows版本，CV进项目文件夹安装pyminitouch出现了问题，尝试用Anaconda和PyCharm可视化安装都说没有这个包命令行解决：pip install pyminitouch 运行“启动和结束进程.py”后报错参考：http://zuimeia.com/app/6771/?category=4&platform=2 应该是手机U...

训练时GPU内存不足，方法及监控

热门推荐

weixin_42535423的博客

10-27

5万+

解决方法：造成这个错误的原因主要是GPU编号原因或者cuda安装版本不匹配例如当本地只有一个 GPU (GPU:0)，而程序中使用 GPUs:1。因此，在程序中找到定义 device 的地方，我的如下： device = th. device ("cuda:1") 将其中 “cuda:1” 修改为 “cuda:0”，程序将不在报错。 device = th. device ("cuda:0") ...

Tensorflow/Pytorch及python数据处理中问题及解决汇总（持续更新中）

zhylhy520的博客

05-22

1658

博主在使用tensorflow进行深度学习编程的时候经常会遇到一些常见的问题，特此在这里将自己遇到的问题与解决方法进行汇总。 1、tensor张量维度扩展（试图把shape为[64,10]的张量扩展为[64,128,10]的张量） n = tf.expand_dims(m,axis=1) #m为shape为[64,10]的tensor #经过tf.expand_dims扩展后的shape为[...

docker无法用GPU

怡宝2号

12-12

5949

报错如下： docker run --gpus all -it c3e9 docker: Error response from daemon: OCI runtime create failed: container_linux.go:346: starting container process caused "process_linux.go:449: container init caus...

linux服务器安装GPU显卡驱动部署文档（包含常见的报错解决方法）

09-01

详细的安装部署文档及其报错解决方法 1、下载驱动地址，查看自己的显卡信息 2、根据自己的显卡信息去登录NVIDIA官方下载适合的驱动型号和版本（很重要！！！）： 3、关闭nouveau驱动 4、重启系统 5、安装gpu驱动

关于Tensorflow使用CPU报错的解决方式

12-20

在使用TensorFlow进行深度学习开发时，我们可能会遇到这样的问题：在尝试运行操作时，系统报错提示"Operation was explicitly assigned to /device:GPU:0 but available devices are [ /job:localhost/replica:0/...

gpu_burn性能压力测试

12-27

5. **使用方法**：GPU_Burn的使用相对简单，一般包括安装、运行和解读结果三个步骤。用户可以通过终端命令行来启动测试，并观察GPU负载、温度等实时数据的变化。"说明.txt"文件可能包含了具体的使用指南和注意事项。...

已解决RuntimeError: CUDA error: invalid device ordinal 亲测有效！！！

m0_55927959的博客

05-08

3135

已解决RuntimeError: CUDA error: invalid device ordinal 亲测有效！！！

调试代码时显示显卡驱动报错

weixin_45550170的博客

02-18

823

在调试代码时出现的问题 RuntimeError: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. 解决办法：在终端输入 sudo apt-get install nvidia-modp

训练超参数，出现 Cannot use GPU in CPU-only Caffe 错误？

luoganttcc的博客

01-25

437

这一项去掉# 2. examples/mnist/lenet_solver.prototxt 中 3. link

解决：AssertionError: CUDA unavailable, invalid device gpu requested

qq_42709514的博客

11-05

2万+

因为是刚接触机器学习，搞cpu的已经搞定，换gpu却出问题了，环境搞了一天。各种百度查。看到这里的朋友不要百度查了，直接上官网，上不了官网的参考一下方式：按照官网给的依赖包版本安装，不然容易踩依赖包版本不合适导致问题 PyTorch官网 CUDA 10.2 官网下载 CUDA 11.3 官网下载 CUDA 10.2 CUDA 10.2 conda ：conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch CUDA 1

在自己的GPU上使用CUDA加速跑通paddlenlp项目（环境搭建以及跑通过程中一些遇到的问题）

京灵智能

08-27

3766

tar zxvf cudnn-11.0-linux-x64-v8.0.5.39.tgz 最近在用百度的paddlepadle框架跑一个文本语义匹配任务，原本我服务器的cuda瓦特掉了所以一直是使用服务器的cpu跑（不用百度的飞桨平台跑是1是因为GPU免费算力时长有限，2是因为这个项目不需要可视化没必要用它的平台），发现有点慢于是决定重装服务器系统（同学帮忙）重新下载cuda进行加速训练。服务器系统版本：Linux Ubuntu18.04版本首先是通过用户名、密码以及ip用...

解决报错RuntimeError: CUDA error: invalid device function Segmentation fault (core dumped)

weixin_44012382的博客

07-30

7700

首先看一下完整的报错： Traceback (most recent call last): File "train_cross-modal.py", line 414, in <module> train() File "train_cross-modal.py", line 292, in train edge_time.to(device), edge_index.to(device), edge_type.to(device)) File "/home/a

RuntimeError: CUDA error: invalid device ordinal解决方案

weixin_43178406的博客

01-09

3万+

本文主要介绍了RuntimeError: CUDA error: invalid device ordinal解决方案，希望能对使用Python的同学们有所帮助。文章目录 1. 问题描述 2. 解决方案 2.1 LLM解决方案 2.2 cv2库解决方案

cpu跑gpu程序报错

03-26

这可能是因为您的GPU驱动程序未正确安装或已过时。请先检查您的GPU驱动程序是否最新，并尝试重新安装驱动程序。另外，还要确保程序要求的GPU与您的实际GPU相匹配。如果以上方法不能解决问题，则可能需要检查您的代码...