[读书笔记] 自然语言处理中的损失函数和正则项

最新推荐文章于 2023-02-14 12:00:05 发布

土肆

最新推荐文章于 2023-02-14 12:00:05 发布

阅读量897

点赞数

分类专栏： # 2019 读书笔记

本文链接：https://blog.csdn.net/sinat_18665801/article/details/88367776

版权

6 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

优化目标

优化目标包括两部分：损失函数和正则项。
损失函数用于衡量预测值与实际值的差距（更好地拟合），正则项用于控制参数值的复杂度（避免过拟合）。
$优化目标=最小化（损失函数+\lambda正则项）$
其中， $\lambda$ 用于控制正则化的程度。

注：主要是在自然语言处理中经常和线性模型以及神经网络一起使用的损失函数。

损失函数：
$L_{hinge(binary)}(\widetilde{y},y)=max(0, 1-y\cdot\widetilde{y})$
分类规则为：
$prediction=\hat{y}=sign(\widetilde{y})$
其中， $y$ 是正确的类别（1或-1）， $\widetilde{y}$ 是分类器的计算结果， $\hat{y}$ 是分类器的输出。
目标：
- 得到一个间隔至少是1的正确分类

损失函数：
$L_{hinge(multi-class)}(\hat{\mathbf{y}},\mathbf{y})=max(0,1-(\hat{\mathbf{y}}_{[t]}-\hat{\mathbf{y}}_{[k]}))$
分类规则为选择分数最高的类别：
$prediction=\mathop{\arg\max}_{i}\ \hat{\mathbf{y}}_{[i]}$
其中， $y$ 是正确类别的独热向量， $\hat{y}$ 是模型的输出向量（ $\hat{\mathbf{y}}=\hat{\mathbf{y}}_{[1]},\hat{\mathbf{y}}_{[2]},\dots,\hat{\mathbf{y}}_{[n]}$ ）， $\hat{\mathbf{y}}_{[t]}$ 为正确类别 $t$ 对应的分数， $\hat{\mathbf{y}}_{[k]}$ 最高分类别 $k$ 的分数。
目标：
- 使正确类别的得分比其他类别至少高出1。

损失函数：
$L_{log}(\hat{\mathbf{y}},\mathbf{y})=log(1+exp(-(\hat{\mathbf{y}}_{[t]}-\hat{\mathbf{y}}_{[k]})$
符号含义同多分类hinge。

损失函数：
$L_{logistic}(\hat{y},y)=-ylog\hat{y}-(1-y)log(1-\hat{y})$
分类规则：
$\begin{cases} 0 & \hat{y}<0.5 \\ 1 & \hat{y}\ge0.5 \end{cases}$
其中， $y$ 是正确的类别（0或1）， $\hat{y}$ 是模型的输出 $\widetilde{y}$ 经过变换的结果( $\hat{y}=sigmod(\widetilde{y})=P(y=1|x))$ ，即 $\hat{y}$ 为样本为1的概率。

损失函数：
$L_{cross-entropy}(\hat{\mathbf{y}},\mathbf{y})=-\sum_i\mathbf{y}_{[i]}log(\hat{\mathbf{y}}_{[i]})$
其中， $\mathbf{y}$ 是正确类别分布向量( $\mathbf{y}=\mathbf{y}_{[1]},\mathbf{y}_{[2]},\dots,\mathbf{y}_{[n]}$ )， $\hat{\mathbf{y}}$ 是经过softmax转换的模型（线性分类器）输出向量( $\hat{\mathbf{y}}=\hat{\mathbf{y}}_{[1]},\hat{\mathbf{y}}_{[2]},\dots,\hat{\mathbf{y}}_{[n]}，\hat{\mathbf{y}}_{[i]}=P(y=i|x))$ 。
简化版：
- 对于训练样本有且只有一个正确的类别这类严格的分类问题来说， $y$ 是一个代表正确类别的独热向量：
  $L_{cross-entropy(hard\ classification)}(\hat{\mathbf{y}},\mathbf{y})=-\log(\hat{\mathbf{y}}_{[t]})$
  其中， $t$ 是正确的类别。
目标：
- （正常版）最小化正确类别分布 $y$ 与预测类别分布 $\hat{y}$ 之间的相异度
- （简化版）使正确类别的概率最大

注：还没整明白

损失函数：
$L_{ranking(margin)}(\mathbf{x},\mathbf{x}')=max(0,1-(f(\mathbf{x})-f(\mathbf{x}')))$

损失函数：
$L_{ranking(log)}(\mathbf{x},\mathbf{x}')=log(1+exp(-f(\mathbf{x})-f(\mathbf{x}'))))$

表示：
$R_{L_2}(\mathbf{W})=||\mathbf{W}||_2^2=\sum_{i,j}(\mathbf{W}_{[i,j]})^2$
目标：
- 保证参数的平方和足够小，即让所有特征的比重都缩小
特点：
- 一旦参数值足够接近于0， $L_2$ 正则化的作用几乎可以忽略不计
- 把10个参数都减少0.1 $v . s .$ 把一个参数减少1： $L_2$ 正则化会选择后者