交叉熵损失的“替代品”：基于最优传输思想设计的分类损失函数EMO

最新推荐文章于 2024-02-05 20:48:08 发布

PaperWeekly

最新推荐文章于 2024-02-05 20:48:08 发布

阅读量811

点赞数

文章标签：分类数据挖掘人工智能机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134172836

版权

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 月之暗面

研究方向 | NLP、神经网络

众所周知，分类任务的标准损失是交叉熵（Cross Entropy，等价于最大似然 MLE，即 Maximum Likelihood Estimation），它有着简单高效的特点，但在某些场景下也暴露出一些问题，如偏离评价指标、过度自信等，相应的改进工作也有很多，此前我们也介绍过一些，比如《再谈类别不平衡问题：调节权重与魔改Loss的对比联系》、《如何训练你的准确率？》、《缓解交叉熵过度自信的一个简明方案》[1] 等。

由于 LLM 的训练也可以理解为逐 token 的分类任务，默认损失也是交叉熵，因此这些改进工作在 LLM 流行的今天依然有一定的价值。

在这篇文章中，我们介绍一篇名为 EMO 的工作，它基于最优传输思想提出了新的改进损失函数，声称能大幅提高 LLM 的微调效果。其中细节如何？让我们一探究竟。

论文标题：

EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling

论文地址：

https://arxiv.org/abs/2310.04691

概率散度

假设是模型预测的第个类别的概率，，则是目标类别，那么交叉熵损失为

如果将标签用one hot形式的分布表示出来（即），那么它可以重写成

这个形式同时适用于非 one hot 的标签（即软标签），它等价于优化的 KL 散度：

当给定时，最右端第一项就是一个常数，所以它跟交叉熵目标是等价的。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
交叉熵损失的“替代品”：基于最优传输思想设计的分类损失函数EMO

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 月之暗面研究方向 | NLP、神经网络众所周知，分类任务的标准损失是交叉熵（Cross Entropy，等价于最大似然 MLE，即 Maximum Likelihood Estimation），它有着简单高效的特点，但在某些场景下也暴露出一些问题，如偏离评价指标、过度自信等，相应的改进工作也有很多，此前我们也介绍过一些，比如《再谈类别不...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。