对于训练中多个loss的权重问题的解决方案

最新推荐文章于 2025-03-12 13:07:21 发布

lct不吃香菜

最新推荐文章于 2025-03-12 13:07:21 发布

阅读量1.2w

点赞数 8

原文链接：https://www.zhihu.com/question/375794498/answer/2292320194

版权

损失函数权重调整神经网络多目标学习训练策略

关键词由CSDN通过智能技术生成

博主分享了在训练神经网络时如何设置多目标损失函数的权重问题。他们提到，损失函数的尺度通常不影响性能，但需避免次要损失项主导训练。提供了几种实践方法，如手动调整损失尺度、使用超参数调整损失权重，以及一种基于损失相对大小的动态权重分配策略。建议根据训练过程中的表现来动态调整各个损失项的权重，确保模型关注所有目标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：hzwer
链接：https://www.zhihu.com/question/375794498/answer/2292320194
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这也是个困扰了我多年的问题：

loss = a * loss1 + b * loss2 + c * loss3 怎么设置 a，b，c？

我的经验是 loss 的尺度一般不太影响性能，除非本来主 loss 是 loss1，但是因为 b，c 设置太大了导致其他 loss 变成了主 loss。

实践上有几个调整方法：

手动把所有 loss 放缩到差不多的尺度，设 a = 1，b 和 c 取 10^k，k 选完不管了；
如果有两项 loss，可以 loss = a * loss1 + (1 - a) * loss2，通过控制一个超参数 a 调整 loss；
我试过的玄学躺平做法 loss = loss1 / loss1.detach() + loss2 / loss2.detach() + loss3 loss3.detach()，分母可能需要加 eps，相当于在每一个 iteration 选定超参数 a, b, c，使得多个 loss 尺度完全一致；进一步更科学一点就 loss = loss1 + loss2 / (loss2 / loss1).detach() + loss3 / (loss3 / loss1).detach()，感觉比 loss 向 1 对齐合理

可以根据自己训练的情况调整三个loss的权重，谁高了可以加大一些权重，意思就是如果某个分支loss高了，那么网络的注意力都会去这个高loss的分支去，从而对其他支路的Loss没有贡献。这里说的“增大权重”就是将loss的量级减少，最好是三个loss都在一个量级为好

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。