几行代码增强模型稳定性：R-drop

qq_42686562

已于 2023-01-20 14:46:36 修改

阅读量476

点赞数

文章标签：算法 python 大数据计算机视觉 pytorch Powered by 金山文档

于 2023-01-20 14:38:03 首次发布

本文链接：https://blog.csdn.net/qq_42686562/article/details/128741516

版权

R-Drop是一种正则化技术，通过在预测时应用Dropout并添加KL散度损失来确保模型在不同Dropout设置下的输出一致性，从而提高模型的稳定性和泛化能力。这种方法可以缓解传统Dropout在训练和预测间的不一致性问题，尤其是在特征具有连续性（如图像数据）的情况下效果更显著。

摘要由CSDN通过智能技术生成

定义

Dropout做两次，让模型分别预测，然后Loss加上两次预测结果的KL距离，也即：两次Dropout结果要在分布上接近。

为什么work

让模型更“稳”。

Dropout有训练预测不一致问题：Dropout后，每次训练的是不同Dropout的融合模型，预测的时候用的是关闭Dropout的单模型，两者未必等价。

R-drop的想法是，如果infer的时候也开着Dropout，那么结果之间差距不大。或者说，Dropout对模型没什么影响。大概类似这样：

R-Drop通过增加一个正则项，来强化模型对Dropout的鲁棒性，使得不同的Dropout下模型的输出基本一致，因此能降低这种不一致性。

代码

pred = model(subgraph)[train_pred_idx]
_use_r_drop =False
if _use_r_drop:
    kld = nn.KLDivLoss(reduction='batchmean')
    pred2 = model(subgraph)[train_pred_idx]
    kl_weight =4.0
    ce_loss =(criterion(pred, target)+ criterion(pred2, target))/2
    kl_1 = kld(F.log_softmax(pred, dim=-1), F.softmax(pred2, dim=-1)).sum(-1)
    kl_2 = kld(F.log_softmax(pred2, dim=-1), F.softmax(pred, dim=-1)).sum(-1)
    loss = ce_loss + kl_weight *(kl_1 + kl_2)/2
else:
    loss = criterion(pred, target)

参数设置：

一般 kl_weight = 4.0 或者 5.0