NLP论文速读(EMNLP 2024)|增强语言模型一致性:一种基于置信度的标签平滑方法Enhancing Language Model Alignment: A Confidence-Base ……

论文速读|Enhancing Language Model Alignment: A Confidence-Based Approach to Label Smoothing

论文信息:

简介:

      本文讨论的背景是大型语言模型(LLMs)在各个领域展现出的卓越能力,特别是在训练过程中的强化学习与人类反馈(RLHF)阶段,这一阶段对于使LLMs与人类的偏好和价值观对齐至关重要。在这一阶段中,标签平滑技术作为一种减少硬标签(hard labels)到软标签(soft labels)的方法,被认为是增强RLHF训练的有前途的技术。然而,标签平滑参数的选择往往依赖于启发式方法,缺乏理论理解,这是本文试图解决的问题。

      本文的动机在于现有的标签平滑参数选择方法缺乏理论基础,且往往是基于经验的。本文通过理论分析,揭示了标签平滑参数与置信度的关系,并提出了一种新的方法,即置信度感知标签平滑(Confidence Aware Label Smoothing, CALS),以期在训练动态和均衡中实现更稳定和保守的梯度更新,从而提高模型与人类偏好的对齐度。

论文方法:

      本文提出了置信度感知标签平滑(CALS)方法,该方法根据偏好标签和模型预测迭代更新标签平滑参数。CALS的核心思想是将标签平滑参数设置为反映标签的置信度水平。

      具体来说,CALS定义了一个函数,该函数将模型预测的概率映射到一个在[0, 0.5)区间内的标签平滑参数。这个映射是基于模型预测与真实标签不一致的概率,从而反映了每个预测的真实置信度。

      在CALS中,梯度更新既考虑了偏好标签的置信度,也考虑了模型预测的正确性。算法1详细描述了带有置信度感知标签平滑的DPO(Direct Preference Optimization)算法。

      该算法接受偏好数据集D和一个先验α0作为输入,并使用一个对称的分段常数函数α来模拟置信度感知的标签平滑参数。

      算法通过采样小批量数据Dt,并应用梯度下降来更新模型参数θ。在更新过程中,算法还更新标签平滑参数,这些参数是基于模型预测与人类反馈不一致的数据点的比例来调整的。通过这种方式,CALS确保了在模型预测错误或标签置信度高的情况下,样本会获得更快的更新,这有助于稳定训练并防止过拟合。最终,算法返回经过T次迭代后训练得到的模型πθT。

论文实验:

      Figure 4 展示了论文中进行的逻辑回归实验的结果。这些实验旨在评估不同方法在处理高维数据时的性能,特别是在接近高维设置(即数据的维度d与训练数据的数量相当)的情况下。

      这种设置在RLHF中很常见,因为大型语言模型通常具有较大的模型尺寸。

      Figure 4 中的四个子图(a)、(b)、(c)和(d)分别展示了在不同维度(d = 20, 200, 500)和不同训练数据数量(ntrain = 50, 103)下,三种方法的测试损失均值和标准差。

      从图中可以观察到以下几点:在所有维度设置下,MLE-CALS-0方法的平均测试损失低于其他两种方法,这证明了在算法1中选择这种方法的合理性。与MLE-CALS-0相比,MLE-CALS-2在测试损失上具有较低的方差。这是因为MLE-CALS-2中的标签平滑参数更接近0.5,如Figure 2所示,这表明训练动态更为保守。

      这些结果表明,CALS方法在逻辑回归任务中能够有效地提高模型的泛化能力,并且在不同的维度设置下都能保持较低的测试损失,证明了CALS方法在提高模型与人类偏好对齐方面的潜力。

论文链接:

https://aclanthology.org/2024.emnlp-main.1189.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值