机器学习：交叉熵损失函数

我家大宝最可爱

已于 2022-05-11 11:21:21 修改

阅读量779

点赞数

分类专栏：机器学习面试文章标签：机器学习概率论深度学习

于 2022-05-05 20:24:11 首次发布

本文链接：https://blog.csdn.net/he_wen_jie/article/details/124595685

版权

1. 世上并无负样本

softmax的标签是一个向量，但是这个向量中只有一个值为1，所以损失函数中也只会有一项是有值的，其他都是0，所以值也都为0。但是交叉熵损失函数中，不管0还是1都是有只的，正样本的时候，值为 $\text{log} p$ ，负样本的时候值为 $\text{log}(1-p)$ 。这就非常的奇怪，为什么负样本有值呢？
其实，我们只要把二分类写成一个向量就可以明白了，正样本有 $[1, 0]$ ，而负样本呢，则为 $[0, 1]$ 。所以在计算损失函数的时候，负样本也是有值的。
出现这个错觉还有一个原因是，我们把正负样本和标签弄混淆了。

仔细想想，多分类的问题中有所谓的负样本吗？并没有，一个样本就是对应一个标签向量。当我们把二分类的标签也写成向量的时候，你就会发现没有所谓的负样本了。很有意思的是，当二分类的时候，我们说正负样本不均衡，当多分类的时候，我们说类别不均衡。

2. 绘制交叉熵函数

如何绘制交叉熵函数，我当时是一脸懵逼的，交叉熵的损失函数我是知道的
$L=\sum_i y \text{log}\ \hat{y}+(1-y) \text{log}\ (1-\hat{y})$

计算每一个样本的损失值，所有样本的值进行累加，就可以得到一个batch样本的损失值，然后我们进行优化，使这个值最小。我的经验中，只会求损失值，并不会绘制函数图像。
当正样本的时候 $y = 1$ ，此时损失函数为 $L=-\text{log}\ \hat{y}$ ，可以看出这是一个log函数，当 $y = 0$ 时，此时损失函数为 $L=-\text{log}\ (1-\hat{y})$ ，这是log函数进行了平移，并且 $\hat{y}$ 的定义域为 $\sim 1$ 之间。
其实这就可以绘制出损失函数了，这样来了一个正样本，我们就可以通过这个函数计算出损失值，来了一个负样本，也可以计算出一个损失值，N个样本的损失值累计则为最终的loss。
当时很奇怪的一个点是，正负都合并到一个函数中了，为什么还会分0和1两种情况来绘制呢？其实y就相当于是一个超参数，只有确定了超参数才能确定最终的图像。举个例子
$y=x^2 + 2 \theta x +1$
我们假定 $\theta$ 只有-1和+1两种取值，现在要求你绘制 $y$ 的曲线，你会怎么做呢？肯定只有确定了 $\theta$ 才能绘制，因为 $\theta$ 就是一个超参数。

3.softmax求导

$p(w_o|w_c)$ 是概率模型，给定中心词 $w$ ，输出每个词的概率值，我们的目标就是最大化MLE损失
$\text{MLE} =\frac{1}{T} \sum_{t=1}^{T}\sum_{-l\leq j \leq l,j \neq 0 } \text{log}\ p(w_{t+j}|w_t)$

通常在最后一层会使用softmax来进行归一化
$p_{\theta}(o|c)=\frac{u_{\theta}(o,c)}{\sum_{o'\in V}u_{\theta}(o',c)}=\frac{u_{\theta}(o,c)}{Z_\theta(c)}$

其中 $u_{\theta}(o,c)=e^{s_{\theta}(o,c)}$ ，如果我们使用神经网络，我们用 $\vec{v_c}$ 表示中心词向量，使用 $\vec{u_o}$ 表示输出词向量。这两个向量的点积表征了两个词的相似度， $s_{\theta}(o,c)=\vec{u_o}\cdot \vec{v_c}$

但是这就有一个问题，我们的损失函数中包含了一个复杂的 $Z_{\theta}$ ，这求导起来非常的麻烦，也仅仅是麻烦而已

最低0.47元/天解锁文章

我家大宝最可爱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习：交叉熵损失函数

交叉熵损失函数给定一个样本xxx，预测1的概率为p(y=1∣x)p(y=1|x)p(y=1∣x)，预测为0的概率为1−p(y=1∣x)1-p(y=1|x)1−p(y=1∣x)。p(y)={yy^=11−yy^=0p(y)=\begin{cases}y & \hat{y}=1 \\1-y& \hat{y}=0\end{cases}p(y)={y1−yy^=1y^=0最终得到一个样本的概率为p(yi)=yi^yi∗(1−yi^)1−yip(y_i)=\hat{y_i}^{y
复制链接

扫一扫