针对http://cs231n.github.io/linear-classify/的理解
softmax function:
fj(z)=eZjΣkeZk
f
j
(
z
)
=
e
Z
j
Σ
k
e
Z
k
其中 eZj e Z j 表示第j张图片的分数, ΣkeZk Σ k e Z k 表示所有图片分数的总和,之所以使用 ex e x 来表示为了将所有分数变成正数确不影响原本分数的大小排序. fj(z) f j ( z ) 的结果表示的是第j张图片为否类别的预测概率.
cross-entropy
https://blog.csdn.net/rtygbwwwerr/article/details/50778098交叉熵链接
The cross-entropy between a “true” distribution p and an estimated distribution q is defined as:
H(p,q)=−Σx(p(x)logq(x))
H
(
p
,
q
)
=
−
Σ
x
(
p
(
x
)
l
o
g
q
(
x
)
)
针对于图片的分类预测,交叉熵描述的是预测的概率和真实的概率的相似程度,
最小化交叉熵等于最小化KL距离(相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence))它们都将在p=q时取得最小值H(p)(p=q时KL距离为0),因此有的工程文献中将最小化KL距离的方法称为Principle of Minimum Cross-Entropy (MCE)或Minxent方法。
在图片分类中, H(p,q)=−Σx(p(x)logq(x)) H ( p , q ) = − Σ x ( p ( x ) l o g q ( x ) ) 等同于 −logq(x)=−log(fj(z))=−logeZjΣkeZk − l o g q ( x ) = − l o g ( f j ( z ) ) = − l o g e Z j Σ k e Z k
因为 p(x) p ( x ) 的真实分类不是0就是1,所以 H(p,q)=−Σx(p(x)logq(x)) H ( p , q ) = − Σ x ( p ( x ) l o g q ( x ) ) 等同于 −logq(x) − l o g q ( x )
In the Softmax classifier, the function mapping f(xi;W)=Wxi f ( x i ; W ) = W x i stays unchanged, but we now interpret these scores as the unnormalized log probabilities for each class and replace the hinge loss with a cross-entropy loss that has the form:
Li=−log(efyjΣkefj)
L
i
=
−
l
o
g
(
e
f
y
j
Σ
k
e
f
j
)