K分类,第k类的参数为
,那么,神经网络中softmax层其实是一个线性网络,所以有这个
;则概率
,
因此概率密度为:
因此最大似然函数为:
这其实是交叉熵的相反数,对最大似然函数取最大值就是对交叉熵取最小值。上式中的
其实在同一个样本中只有一个为1;
和逻辑斯蒂回归有一样的形式。
对于下式y是标签,
是输出预测值。假设y=[0,1,0,0],=[0.3,0.4,0.1,0.2]
单个训练样本损失函数
K分类,第k类的参数为
,那么,神经网络中softmax层其实是一个线性网络,所以有这个
;则概率
,
因此概率密度为:
因此最大似然函数为:
这其实是交叉熵的相反数,对最大似然函数取最大值就是对交叉熵取最小值。上式中的
其实在同一个样本中只有一个为1;
和逻辑斯蒂回归有一样的形式。
对于下式y是标签,
是输出预测值。假设y=[0,1,0,0],=[0.3,0.4,0.1,0.2]
单个训练样本损失函数