自己动手实现深度学习框架-4 使用交叉熵损失函数支持分类任务

最新推荐文章于 2023-08-30 07:50:31 发布

自带buff

最新推荐文章于 2023-08-30 07:50:31 发布

阅读量308

点赞数

分类专栏： AI 深度学习框架文章标签： AI 深度学习框架交叉熵损失函数

本文链接：https://blog.csdn.net/weixin_39818173/article/details/105662501

版权

目标

增加交叉熵损失函数，使框架能够支持分类任务的模型。
构建一个MLP模型, 在mnist数据集上执行分类任务准确率达到91%。

实现交叉熵损失函数

数学原理

分解交叉熵损失函数

交叉熵损失函数把模型的输出值当成一个离散随机变量的分布列。设模型的输出为: $\hat{Y} = f(X)$ , 其中 $f (X)$ 表示模型。 $\hat{Y}$ 是一个m X n矩阵, 如下所示:
$\begin{bmatrix} \hat{y}_{11} & \hat{y}_{12} & ... & \hat{y}_{1n} \\ \hat{y}_{21} & \hat{y}_{22} & ... & \hat{y}_{2n} \\ ... & ... & ... & ... \\ \hat{y}_{m1} & \hat{y}_{m2} & ... & \hat{y}_{mn} \end{bmatrix}$
把这个矩阵的第i行记为 $\hat{y}_i$ , 它是一个 $R^{1Xn}$ 向量, 它的第j个元素记为 $\hat{y}_{ij}$ 。
交叉熵损失函数要求 $\hat{y}_i$ 具有如下性质:
$\begin{matrix} 0<=\hat{y}_{ij}<=1 & & (1)\\ \sum_{j=1}^{n} \hat{y}_{ij} = 1, & n=2,3,... & (2) \end{matrix}$
特别地，当n=1时, 只需要满足第一条性质即可。我们先考虑n > 1的情况, 这种情况下n=2等价于n=1，在工程上n=1可以看成是对n=2的优化。
模型有时候并不会保证输出值有这些性质, 这时损失函数要把 $\hat{y}_i$ 转换成一个分布列: $\hat{p}_i$ , 转换函数的定义如下:
$\begin{matrix} S_i = \sum_{j=1}^{n} e^{\hat{y}_{ij}}\\ \hat{p}_{ij} = \frac{e^{\hat{y}_{ij}}}{S_i} \end{matrix}$
这里的 $\hat{p}_i$ 是可以满足要求的。函数 $e^{\hat{y}_{ij}}$ 是单调增函数，对于任意两个不同的 $\hat{y}_{ia} ＜ \hat{y}_{ib}$ , 都有: