交叉熵损失的“替代品”:基于最优传输思想设计的分类损失函数EMO

3e294d764b84b2c8bec67237225a6fcc.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 月之暗面

研究方向 | NLP、神经网络

众所周知,分类任务的标准损失是交叉熵(Cross Entropy,等价于最大似然 MLE,即 Maximum Likelihood Estimation),它有着简单高效的特点,但在某些场景下也暴露出一些问题,如偏离评价指标、过度自信等,相应的改进工作也有很多,此前我们也介绍过一些,比如《再谈类别不平衡问题:调节权重与魔改Loss的对比联系》《如何训练你的准确率?》、《缓解交叉熵过度自信的一个简明方案》[1] 等。

由于 LLM 的训练也可以理解为逐 token 的分类任务,默认损失也是交叉熵,因此这些改进工作在 LLM 流行的今天依然有一定的价值。

在这篇文章中,我们介绍一篇名为 EMO 的工作,它基于最优传输思想提出了新的改进损失函数,声称能大幅提高 LLM 的微调效果。其中细节如何?让我们一探究竟。

9af15e88d389d79edf7815c36958b367.png

论文标题:

EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling

论文地址:

https://arxiv.org/abs/2310.04691

b7da6b442750c464271151154ffac23e.png

概率散度

假设 是模型预测的第 个类别的概率,, 则是目标类别,那么交叉熵损失为

4e49e7667a0eab123aee5aa7f43be175.png

如果将标签 用one hot形式的分布 表示出来(即 ),那么它可以重写成

15f3fef3123d369c1bb92fd2735dc823.png

这个形式同时适用于非 one hot 的标签 (即软标签),它等价于优化 的 KL 散度:

920249c3246d01db7a0a6fe7d6e9c993.png

当 给定时,最右端第一项就是一个常数,所以它跟交叉熵目标是等价的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值