![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
训练过程
文章平均质量分 50
lanmy_dl
重庆邮电大学硕士在读
展开
-
linux跑python控制台输出日志无内容或者断掉
训练时候的输出日志要么没有,要么就是输出了一点点就没有了(突然不输出内容了),记得之前也出现过训练中途突然日志不打印了,当时以为服务器原因可能被挤掉了。但这次是还没开始并且试过很多次了。所用语句或者python main.py > test2.out 2>&1 &或者nohup python main.py > test2.out 2>&1 &或者nohup python main.py > test2.out &或者 python main.py >> test2.out &原创 2023-05-13 12:29:34 · 719 阅读 · 0 评论 -
CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha
【代码】CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha。原创 2023-04-16 16:47:01 · 2095 阅读 · 0 评论 -
TypeError: DataLoader found invalid type: <class ‘dgl.heterograph.DGLHeteroGraph‘>
DataLoader都一样,一直没注意上面的引入包,因为换了个数据加载格式,从自己封的Data图数据,到用dgl包装。原因,使用的DataLoader引入包不一样,数据是[[g,label],[g,label],…但是下面这个适合整体性的数据,例如[Data({}),Data({}),…所以根据不同的数据内容,选择好不同的图数据加载器。原创 2023-03-09 18:20:18 · 485 阅读 · 0 评论 -
raise RuntimeError(“Distributed package doesn‘t have NCCL “ “built in“) RuntimeError: Distributed pa
百度出来都是window报错,说:在dist.init_process_group语句之前添加backend=‘gloo’,也就是在windows中使用GLOO替代NCCL。好家伙,可是我是linux服务器上啊。代码是对的,我开始怀疑是pytorch版本的原因。最后还是给找到了,果然是pytorch版本原因,接着>>>import torch。复现stylegan3的时候报错。控制台输入>>>python。报错代码是这里的nccl。原创 2022-10-02 18:37:28 · 4248 阅读 · 1 评论 -
WARNING:root:NaN or Inf found in input tensor.Test loss: nan,
但是对于我来说是跑过的一样的数据集一样的读取和预处理,另外学习率已经够低了,说学习率调到0 错误消失说明就不是数据集的问题,我这样做了,但是精度一样如上的低,虽然Test loss 有数值了。重点就是net.train()的位置,(很多博客都说放在训练前的,以前epoch训练没问题,换step时粗心没有注意到,这样放的。查问题说是学习率过大或者数据有问题,导致梯度消失或者梯度爆炸,检查数据集或者不断调低学习率。看代码也没问题,结果,果然是很细小的错误,net.train()的用法位置!原创 2022-09-07 16:15:06 · 1832 阅读 · 0 评论 -
训练和测试的loss不下降,并且精度超低
这几天用图神经网络训练MNist分类,最开始测试精度只有0.11。。。其实就算loss不下降,一开始的精度也不该这么低,emmm该想到肯定是我代码写错了,就是太自信太简单了,没有一行一行看。原创 2022-07-20 16:23:25 · 893 阅读 · 2 评论 -
enumrate的start属性的坑
是这样的,要两个for循环遍历,取出数据,并且第二个for循环可以在第一个之后取节省处理了的时间,我用了enumerate,结果以为start属性和我想的不一样start属性说明即使下标变成1,还是和第0个相同原来只是改变开始值的下标,还是从头给你遍历,这样下标虽然记录的变了,但是数据还是从头取。。。还是老实用for循环把,突然懂了一般训练代码里面有时候用两个for循环...原创 2022-07-01 19:48:32 · 166 阅读 · 0 评论 -
tqdm的多行显示与单行显示
单行显示缺点,看不到变化的过程,因为会覆盖掉;优点,节省屏幕,看的舒心好比不关闭close()就是多行显示上面的循环就是train里面取每个数据来训练的循环,常用是这样循环没明白的再看这里...原创 2022-06-28 21:57:25 · 4565 阅读 · 1 评论