人工智能
文章平均质量分 64
XJTU-Qidong
现就职于沙坡村男子职业技术学院的长安区大工地分部。喜欢足球,游戏,是米兰铁粉。
展开
-
神经网络/深度模型训练Debug过程中一些总结和经验
神经网络/模型训练Debug深度模型的Debug与一般程序的Debug有很大的不同. 一般程序的Debug通常可以通过简单地打断点调试出来. 而深度模型通常会出现程序的所有模块都可以正常跑通, 但就是模型效果与正常情况相去甚远, 这种Debug就非常的困难.尤其对于大模型来说, 一处"笔误"可能也会导致很大的问题.因此, 这里总结常见的Bug以及Debug经验.常见Bug1. 某一部分参数梯度总为0可能是程序里存在"笔误", 有一部分的参量并没有加入模型中进行运算2. Loss不下降(未完待原创 2021-03-18 15:19:28 · 3084 阅读 · 0 评论 -
模型训练过程中产生NAN的原因分析
模型训练过程中产生NAN的原因分析在模型的训练过程中发现,有时在经过多轮训练后loss会突然变为nan。loss变为nan也就使权重更新后的网络里的参数变为了nan,这样就使整个训练无法再进行下去了。1. nan的来源从调试情况来看nan出现的顺序是:loss的梯度 --> 网络的参数 --> 预测的结果 --> loss本身。注意,第一个出现问题的应该是loss的梯度。2. 可能1:torch.sqrt()一般sqrt函数的定义域为:[0,无穷大)torch.sqrt()的原创 2020-07-29 22:34:41 · 18064 阅读 · 8 评论