记录 深度学习经典输出单元函数softmax和损失函数cross- entropy组合的推理过程
以识别0~9的手写例子来尝试描述这个问题,假设输入数据集为28x28的手写数字(单通道)。
那么输入图片X为28x28 = 784 维的一个向量。并,简单起见使用单层网络W_i x + b。
假设
等式右边:
输入图片X像素0~784 * Wij + bi
其中Wij 是i数字对0j(0784)像素的权值
等式左边:
输出值,z_i对应数字i(i为0到9)的计算结果。
假设一张“1”的手写图片计算结果z_1一个很高的值,其他z_i(0,2,…9)很小的值,完美,我们可以预测它为1。
实际上初始计算结果是完全随机的值,我们的目标就是优化这些权值,能够每张数字i的图片上输出值很大,
i以外的数字图片上输出值很小。(这里大和小只是一个概念,主要目的是计算结果要有差异,在对应数字的结果
表现和非对应数字结果表现有差异,这样我们好预测,当然这个差异越明显越好)
1 softmax函数
Softmax归一化指数函数,主要是把上述输出结果概率化: