调参
slamdunkofkd
这个作者很懒,什么都没留下…
展开
-
完美解决pytorch多线程问题:Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing
在pytorch,dataloader里设置了num_workers > 1的时候, 会出现这个错误。一般网上https://blog.csdn.net/qazwsxrx/article/details/116806358解决方法,加上一行设定。然而,我这里如果加上这行代码,会导致代码卡死在dataloader里面。后面发现,代码里面设定了这样的几行。if cuda: torch.set_default_tensor_type('torch.cuda.FloatTen.原创 2021-08-13 10:59:44 · 12575 阅读 · 7 评论 -
RuntimeError: CUDA error: an illegal memory access was encountered 错误解决方案
RuntimeError: CUDA error: an illegal memory access was encountered首先,大家先检查自己的网络的参数是否有问题,如果参数有问题会导致此问题。其次,博主遇到一个情况。在单GPU下开启时,eval阶段会报这种错误。torch.nn.DataParallel(net,device_ids=[0])在net eval之前加...原创 2020-03-04 16:34:42 · 32002 阅读 · 10 评论 -
记录一个pytorch训练过程中的奇怪错误(解决) psroialign
先写下错误原因和出现的时候,暂时没有解决,等到解决了来补充解决方案 ret = torch._C._nn.smooth_l1_loss(expanded_input, expanded_target, _Reduction.get_enum(reduction))RuntimeError: reduce failed to synchronize: an illegal memory ac...原创 2020-03-01 12:32:23 · 1779 阅读 · 0 评论 -
ps roialign,def pspool,roialign调试中一些参数理解
对于这三种池化方式,给的c++代码都没有去检查输入数据的channel 和输出之间的关系。但是如果我们不去人为限制的话,在训练过程中会出现,loss变为inf,nan等行为,会出现在第一个epoch几个batch之后。这三种关系应该是这样的:ps roialign input channel = alignsize*alignsize*output channeldefpspool...原创 2020-03-01 12:23:05 · 383 阅读 · 0 评论