常见损失函数总结 in NLP

最新推荐文章于 2025-04-02 23:26:25 发布

WinterShiver

最新推荐文章于 2025-04-02 23:26:25 发布

阅读量2.3k

点赞数

分类专栏：机器学习与人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WinterShiver/article/details/103021569

版权

机器学习与人工智能专栏收录该内容

13 篇文章

订阅专栏

常见损失函数总结

loss一般是正的，而且越小越好。

0-1 loss / abs loss

应用场景：回归问题
0-1 loss：只要预测值和标签不相等，就loss+=1；或者预测值q和标签p之间的差值大于阈值t，就loss+=1.或者套用其他的非线性函数。
abs loss：loss += abs(p-q).

square loss

应用场景：很多，分类问题和回归问题都可以
loss输入：模型通过预测给出一个tensor(scalar, vector甚至matrix)，而标签也是一个同样size的tensor
计算：
$J_{mse} = \sum_{i, j}(p_{i, j} - q_{i, j})^2$

hinge loss

应用场景：N分类问题
loss输入：模型输入一个N维向量为分类结果，针对这个向量计算loss.（这个N维向量一般是一个全连接层（线性层）的输出，是模型对于每个类别的打分。）
计算方法：向量的每个分量和正确分类的分量比较，如果差的不多甚至超过（说明有混淆），则在loss中反映出来。在下面的公式中， $i$ 是正确的类别， $t$ 是阈值（一般为1，或是某个计算出来的平均值）。
$J_{hinge} = \sum_{j=1, j\neq i}^{N}max(0, s_j - s_i + t)$

softmax loss

应用场景：N分类问题
loss输入：模型输出一个N维向量，为模型预测的分类概率。
计算方法：
$J_{softmax} = -logP(i|model)$

cross entropy loss

应用场景：在自然语言中很常用
loss输入：模型输出一个N维向量q，即模型预测的分布（分布律）。但是实际上的分布是N维向量p.
计算方法：
$J_{cross\_entropy} = -\sum_{i=1}^{N}p_ilogq_i$

有的时候也会使用困惑度作为loss
$J_{cross\_entropy} = 2^{J_{cross\_entropy} }$

L1正则项

正则项又叫做罚项，是为了限制模型的参数过度地往同一个方向发展，从而导致模型过拟合，而加在损失函数后面的一项。
计算：所有参数的线性和/加权线性和。
- 如果所有参数都位于同一量度，那么可以直接线性和；如果有的参数和其他参数量度不同（比如分布不同，均值的差距太大）（这可能是因为输入没有标准化导致的），那就乘以一个线性系数。
L1会趋向于产生少量的特征，而其他的特征都是0.这样可以提取出较少的特征。图像解释：因为L1范数在平面坐标系的单位圆是菱形的，有向四个坐标轴突出的迹象，所以趋向于产生少量的值较大的特征。
如果样本原本的分布符合Laplace分布，那么推荐使用L1正则项。

L2正则项

计算：所有参数的平方和/加权平方和。
L2产生的特征数比L1多，但是都是接近于0的。图像解释：因为L2范数在平面坐标系的单位圆是圆，在各个方向的扩展比较均匀，所以趋向于产生大量的值较小的特征。
如果样本原本的分布符合Gauss分布，那么推荐使用L2正则项。

博客等级

码龄7年

152
原创

238
点赞

679
收藏

1740
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: C++面向对象多态&虚函数的一个例子

下一篇：: 对矩阵微积分的解释 - 未完待续

最新评论

PaddleOCR遇到RuntimeError: (PreconditionNotMet) Cannot load cudnn shared library. 错误的解决
金讲究: 有效！成功了，首先去cuda下载对应的cudaa版本，如果是12x以上就下载最新的即可。接着把下载的xz包解压到服务器上，之后进入到解压后的lib包中，使用export LD_LIBRARY_PATH=xxx/lib:$LD_LIBRARY_PATH即可完成
服务器普通用户安装自己需要版本的gcc
遥Haruka: 为啥我加入了path以后which gcc还是默认的路径
Pytorch：多模态大模型预训练、大模型微调：加载数据的正确姿势
WinterShiver: 当前的数据处理场景设定如下：数据源为单个巨大的 jsonl 文件，可能包含多达上百万行数据记录。且单条数据条目普遍较为简短。本文聚焦于利用 PyTorch 的 Dataset 类的默认接口。在实践中，当然也可以重写 Dataset 类的 init 方法，使其仅加载诸如数据索引、数据条目总量这类元数据，而将具体数据内容的获取环节后置至 getitem 方法被调用时执行，来规避一次性将大规模数据集完整载入内存，而无需使用 iterable dataset。然而本文场景下，由于数据总量大，仅加载数据索引的元数据，内存占用还是很大，没有显著改善资源利用情况；。与此同时，在该业务场景下，诸如 len 这类用以表征数据规模等属性的元信息并不重要。此时选用 iterable dataset 会更方便。本文核心目的在于清晰阐释相关接口的高效运用方式，方便实操使用。而到了实际解决问题的时候思路可以很开阔。
Pytorch：多模态大模型预训练、大模型微调：加载数据的正确姿势
wtz123123123: “Pytorch的Dataset类在初始化时会将整个数据集加载到内存中”，这句话应该存在错误
Haskell：实现二叉树及其前序、中序、后序遍历和层序遍历
Stepfen Shawn: levelOrderTraversal不用reverse也行, k:result改成result++[k]就可以了

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。