NLP任务中常用的损失函数

最新推荐文章于 2024-10-06 20:23:33 发布

bulingg

最新推荐文章于 2024-10-06 20:23:33 发布

阅读量1.7k

点赞数 27

分类专栏：算法工程师文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/bulling/article/details/135656199

版权

8 篇文章

订阅专栏

本文详细介绍了文本分类、情感分析等任务中常用的损失函数，包括二分类和多分类交叉熵，以及语言模型中的困惑度概念。同时探讨了生成式问答和文本生成的对数似然损失。此外，文中还涵盖了各种文本相似度度量方法，如余弦相似度、皮尔逊相关系数、Jaccard相似度和欧几里得/曼哈顿距离。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

适用于：文本分类，情感分析，机器翻译，抽取式问答的有：
$y,\hat{y}$ 分别表示真实和预测值

语言模型（LM）：

问答系统（生成式问答），生成式任务（如文本生成）
给定输入序列 $x=\{x_{i}\}_{i=1}^{M}$ ，文本生成模型生成一个目标序列文本 $y=\{y_{i}\}_{i=1}^{N}$

对数似然损失函数：
$L_{NLL}=-\sum_{t=1}^{N}logp_{\theta}(y_{t}\vert x,y_{<t})$
在训练过程中，预测下一个token是利用真实的先前序列 $y_{<t}\in y$ ，而在推理过程中，预测下一个token是利用模型预测的先前序列 $y_{<t}$

语义相似度：

余弦相似度：
$L(a,b)=1-\frac{a\cdot b}{\Vert a\Vert \cdot \Vert b\Vert }$
常见的向量空间模型下的相似度计算方法，将文本表示为向量，通过计算它们的余弦值来衡量相似度。
皮尔逊相关系数
$P(a,b)=\frac{cov(a,b)}{\sigma_{a}\cdot\sigma_{b}}$
衡量两个变量之间线性相关性的指标，在语义相似度任务中可以用于评估两个文本向量之间的线性关系。
Jaccard相似度
$J(a,b)=\frac{\vert a\cap b\vert}{\vert a\cup b\vert}$
用于衡量两个集合的相似度，对于文本来说，可以将文本中的词看作是集合中的元素。
欧几里得距离
$D(a,b)=\sqrt{\sum_{i=1}^{n}(a_{i}-b_{i})^{2 }}$
曼哈顿距离
$D(a,b)=\sum_{i=1}^{n}|a_{i}-b_{i}|$