PyTorch
文章平均质量分 63
PyTorch
不吃饭就会放大招
人工智能领域专家博主
展开
-
【Bug解决】AttributeError: ‘DataParallel‘ object has no attribute ‘XXX‘
报错内容:raise AttributeError("'{}' object has no attribute '{}'".format(AttributeError: 'DataParallel' object has no attribute 'XXX'报错信息的意思是 DataParallel object 没有 attribute/method XXX。原创 2023-04-06 23:42:56 · 4874 阅读 · 1 评论 -
【Bug解决】NVIDIA GeForce RTX 3090 with CUDA capability sm_86 is not compatible with ...
NVIDIA GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch installation.The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70.原创 2022-10-11 10:14:19 · 5890 阅读 · 0 评论 -
PyTorch 迭代器读取数据
PyTorch 迭代器读取数据demo原创 2022-09-27 13:31:50 · 1335 阅读 · 0 评论 -
【Bug解决】VisibleDeprecationWarning: Creating an ndarray from ragged nested sequences
用Meta-Dataset做训练,由于数据采样方式的问题导致numpyarray的维度不一致,但不影响训练。原创 2022-07-18 20:37:12 · 1615 阅读 · 0 评论 -
【Bug解决】Warning: grad and param do not obey the gradient layout contract. This is not an error, but..
首先,这个warning不解决对程序执行下去没有影响,!!训练代码时,仅在会抛出该warning,其余epoch均正常。当使用一张卡训练时,不会抛出该Warning。经过debug调试,发现在第二个epoch的语句执行时会抛出该警告。在model推理过程中,tensor不连续。笨办法,看model的forward函数里哪个步骤可能会导致tensor不连续,最终定位到我的backbone网络(ResNet)中的,也就是下面代码的,给输入x加上变成。...原创 2022-07-18 20:14:03 · 3334 阅读 · 0 评论 -
【小记】图像从 tensor 转换为 np.array
最近写代码犯了一个严重的错误,就是 PyTorch 读取图像数据在维度表示上的问题。首先,利用 numpy 读取的图像储存格式为 [h,w,c],即图像高度、图像宽度、图像通道数。而在 PyTorch 中图像的保存形式为 [n,c,h,w],即 batch size,图像通道数,图像高度、图像宽度。在没有理解这两种形式如何转换的情况下,我竟然直接用 reshape 进行转换!犯蠢了???? 一天后...转载 2019-10-29 19:48:57 · 3260 阅读 · 1 评论 -
Pytorch笔记(二)损失函数
二分类任务二分类任务只有正例和反例,且两者概率和为 1。所以在二分类任务中,对目标只需要预测一个属于正例的概率即可,损失函数可以定义如下:Loss=−(y×log(y^)+(1−y)×log(1−y^))Loss = -\big(y \times log(\hat y) + (1 - y) \times log(1 - \hat y) \big)Loss=−(y×log(y^)+(1−y...原创 2020-03-04 13:10:16 · 3117 阅读 · 0 评论 -
Pytorch笔记(一)数据的读取与处理
文章目录【Chapter 2】 2019/8/26 Mon【Chapter 3】 2019/8/【Chapter 2】 2019/8/26 Monimport torch# 1. Data preparation: get_data# 2. Creating learnable parameters: get_weights# 3. Network model: simple_netw...原创 2019-09-07 16:51:38 · 1480 阅读 · 0 评论 -
PyTorch中model.state_dict(),model.modules(),model.children(),model.named_children()等含义
PyTorch 中 model 的各种方法总结:首先定义网络模型 Net:网络 Net 本身是一个 nn.Module 的子类,包含了 backbone 和 classifier 两个由 Sequential 容器组成的 nn.Module 子类,backbone 和 classifier 各自又包含一些网络层,这些网络层也都属于 nn.Module 子类,所以从外到内共有三级:model 各种方法的返回值:除了 model.state_dict() 返回值为一个有序字典,其他方法的返回值都是一个生成器原创 2022-06-02 11:22:45 · 5918 阅读 · 0 评论 -
Pytorch使用nn.DataParallel失效:只能使用单GPU / 无法使用多GPU训练
官方文档: torch.nn.DataParallelDataParallel 在 Module 级别实现并行计算,关于使用了 DataParallel 而实际训练时不起作用(只能使用单 GPU)的可能原因:1. 设置的 Batch Size 小于可用的 GPU 数量,这一点在官方文档中也有说明: 需要保证大于使用的 GPU 数量。2. 未使用 nn.Module 的默认 forward() 方法执行前向传播。一般情况下,定义的 Model 继承自 ,在进行前向传播时,调用 函数,能够进行多 GPU 并行原创 2022-05-13 14:27:28 · 5037 阅读 · 6 评论 -
【Bug解决】RuntimeError: Expected tensor for argument #1 ‘input‘ to have the same device as tensor for..
单机多卡跑网络模型遇到以下错误:报错内容:从报错内容可以看出, 和 不在同一个 GPU 上,输入数据在 device 0 上(cuda:0),模型权重在 device 2 上(cuda:2)。首先定位到报错的代码行,打印一下网络输入数据()和网络权重()分别所在的设备:打印输出结果,数据在 cuda 0,而网络权重在 cuda 2,和报错信息提示是一致的。关于该错误出现的原因,很可能是模型定义的问题,没有继承 nn.Module 方法,因为 DataParallel 只能对 nn.Module 及继原创 2022-05-31 21:26:00 · 3519 阅读 · 0 评论 -
【Bug解决】OSError: image file is truncated (7 bytes not processed)
PyTorch 代码,使用 MS COCO 数据集训练时报错:报错内容:图像损坏,无法读取,具体就是括号里提示的,7 bytes 无法读取。报错原因:将一张正常的 格式图片用二进制打开,遵循的格式规则是图片开头为 ,图片结尾为 ,如果图片数据遭到损坏,通常是尾部的 不见了。最好是能将损坏的数据修复,针对 MS COCO 的训练数据, 这张图片已经损坏了,在https://msvocds.blob.core.windows.net/images/262993_z.jpg 可以下载到正常的图片,替换掉损坏原创 2022-03-18 09:53:18 · 4199 阅读 · 1 评论 -
【Bug解决】SpatialClassNLLCriterion.cu:103:void cunn_SpatialClassNLLCriterion_updateOutput_kernel
报错信息:检查三个地方:一般如果数据确定没问题,那就是网络输出的问题。原创 2020-03-14 15:41:08 · 3724 阅读 · 2 评论 -
【Bug解决】RuntimeError:Given groups=1,weight of size...expected input...but got 3 channels instead.
报错信息:原因: 明显是数据读入的通道数不对,应该是 1 通道,但是这里读入的是 3 通道。但是检查了数据,发现就是一通道的灰度图,没错儿呀。最后发现是 模块 打开图像的数据 问题。检查发现,图像竟然是RGB,但我的训练图像是一通道的灰度图,所以得想办法把 mode 转换一下。解决方法:这样子网络再读取图像,就是 啦 ~...原创 2020-03-14 12:11:20 · 93425 阅读 · 27 评论 -
【Bug解决】RuntimeError:Error(s)in loading state_dict for DataParallel:Missing key(s)in state_dict
报错信息:原因: 加载模型参数时,关键字不匹配,原因是模型只能加载 key 完全一致的参数,可以按照下述方式解决,这样模型会跳过不匹配的参数,如果你需要完全 load 进来,就需要手动更改 model 的参数关键字名称。解决:...原创 2020-03-14 11:51:23 · 9444 阅读 · 8 评论 -
【Bug解决】invalid argument at /pytorch/aten/src /THC/THCGeneral.cpp:405
错误信息:https://discuss.pytorch.org/t/a-error-when-using-gpu/32761原因:在这里我的报错是由于后者,我的显卡是 RTX2080(Ti),PyTorch 1.0,如果换成 RTX1080(Ti)就没有问题,比较简单的解决方案是,将 python 文件中的 设置成 ,即可得到一个静态 CUDA error,此时虽然报错但并不影响后面的运行。...转载 2019-10-15 12:13:34 · 5532 阅读 · 1 评论 -
【PyTorch】BUG记录与解决方法
BUG 1THCudaCheck FAIL file=/opt/conda/conda-bld/pytorch_1524586445097/work/aten/src/THC/THCGeneral.cpp line=844 error=11 : invalid argumentBUG 2ValueError: Expected more than 1 value per channel w...原创 2019-10-22 23:59:16 · 2481 阅读 · 0 评论 -
Windows10下安装Pytorch
不得不说 Windows 装个东西真的麻烦…1. 下载 pytorch链接:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pytorch前两个是有 CUDA 使用的,我安装的是第 4 个,即 CPU 版本,对应 python 版本为 3.6。2. 安装 pytorch终端进入 whl 文件存放目录下,执行 pip 安装:3. 检查是否安装成功安装完毕后 import pytorch 可能报错:解决:在 intel-openmp/files 界面下载 ,完毕后原创 2019-09-30 11:16:29 · 775 阅读 · 0 评论 -
Torch安装及使用
依次执行下面四条语句:说明: 第一条语句的默认安装路径在 home/usr/ 下,根据需要可以修改脚本将 Torch 添加到 PATH 变量中。只需 source 一次就可以刷新环境变量。安装脚本将检测到当前的 shell,并在正确的配置文件中修改路径。刷新方法:删除 Torch安装包使用 luarocks(包管理工具) 安装新的包:进入和退出 Torch遇到的问题error: more than one operator “==” matches these operands执行第四条原创 2019-05-24 17:58:09 · 15640 阅读 · 0 评论 -
PyToch 安装
PyTorch Get StartedTorch 中文文档使用 CPU:使用 GPU:CUDA 版本可修改为自己的版本,8.0 / 9.0 / 10.0验证安装成功如果没有报错就说明安装成功。安装 PyTorch 包括两部分,一个是 Torch 一个是 torchvision,torchvision 里有很多数据库(比如 MINST)、预训练好的模型,可以直接下载到本地。...原创 2019-06-02 11:31:41 · 952 阅读 · 0 评论