1、分类模型
分类模型,例如Softmax回归。和线性回归不同,Softmax回归的输出单元从一个变成了多个。Softmax回归是一个单层神经网络。
2、Softmax运算
设带下标的w和b分别为Softmax回归的权重和偏差参数。给定单个图片的输入特征
x1,x2,x3,x4
x
1
,
x
2
,
x
3
,
x
4
,有
在得到输出层的三个输出后,我们需要预测输出分别为lable1、lable12和lable3的概率。不妨设它们分别为
y^1,y^2,y^3
y
^
1
,
y
^
2
,
y
^
3
。下面,我们通过对
o1,o2,o3
o
1
,
o
2
,
o
3
做Softmax运算,得到模型最终输出
Softmax运算中的三式记作
3、交叉熵损失函数
Softmax回归使用了交叉熵损失函数(cross-entropy loss)。真实标分别对应离散值y1,y2,y3,它们的预测概率分别为
y1,y2,y3
y
1
,
y
2
,
y
3
。为了便于描述,设样本i的标签的被预测概率为
plabeli=y^i
p
label
i
=
y
^
i
。例如,如果样本i的标签为y3,那么
plabeli=y^3
p
label
i
=
y
^
3
。直观上,训练数据集上每个样本的真实标签的被预测概率越大(最大为1),分类越准确。假设训练数据集的样本数为n。由于对数函数是单调递增的,且最大化函数与最小化该函数的相反数等价,我们希望最小化
其中 Θ Θ <script id="MathJax-Element-13" type="math/tex">Θ</script>为模型参数。该函数即 交叉熵损失函数。在训练Softmax回归时,我们将使用优化算法来迭代模型参数并不断降低损失函数的值。