Softmax classifier&交叉熵-cross-entropy

最新推荐文章于 2022-10-18 21:57:36 发布

qy_zhizi

最新推荐文章于 2022-10-18 21:57:36 发布

阅读量197

点赞数

分类专栏：机器学习文章标签： softmax

本文链接：https://blog.csdn.net/qq_36275734/article/details/82533427

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

针对http://cs231n.github.io/linear-classify/的理解

softmax function:

f j (z) = e Z j Σ k e Z k

$f_j(z)=\frac{e^{Z_j}}{\Sigma_k e^{Z_k}}$
其中

eZj e Z j $e^{Z_j}$ 表示第j张图片的分数，

ΣkeZk Σ k e Z k $\Sigma_k e^{Z_k}$ 表示所有图片分数的总和，之所以使用

ex e x $e^x$ 来表示为了将所有分数变成正数确不影响原本分数的大小排序．

fj(z) f j ( z ) $f_j(z)$ 的结果表示的是第j张图片为否类别的预测概率．

cross-entropy

https://blog.csdn.net/rtygbwwwerr/article/details/50778098交叉熵链接
The cross-entropy between a “true” distribution p and an estimated distribution q is defined as:

H (p, q) = - Σ x (p (x) l o g q (x))

$H(p,q)=-\Sigma_x(p(x)log\,q(x))$
针对于图片的分类预测，交叉熵描述的是预测的概率和真实的概率的相似程度，
最小化交叉熵等于最小化KL距离（相对熵(relative entropy)又称为KL散度（Kullback-Leibler divergence））它们都将在p=q时取得最小值H(p)（p=q时KL距离为0），因此有的工程文献中将最小化KL距离的方法称为Principle of Minimum Cross-Entropy (MCE)或Minxent方法。
在图片分类中，

H(p,q)=−Σx(p(x)logq(x)) H ( p , q ) = − Σ x ( p ( x ) l o g q ( x ) ) $H(p,q)=-\Sigma_x(p(x)logq(x))$ 等同于

−logq(x)=−log(fj(z))=−logeZjΣkeZk − l o g q ( x ) = − l o g ( f j ( z ) ) = − l o g e Z j Σ k e Z k $-log\,q(x)=-log\, (f_j(z))=-log\frac {e^{Z_j}}{\Sigma_k e^{Z_k}}$
因为

p(x) p ( x ) $p(x)$ 的真实分类不是0就是1,所以

H(p,q)=−Σx(p(x)logq(x)) H ( p , q ) = − Σ x ( p ( x ) l o g q ( x ) ) $H(p,q)=-\Sigma_x(p(x)logq(x))$ 等同于

−logq(x) − l o g q ( x ) $-log\,q(x)$
In the Softmax classifier, the function mapping

f(xi;W)=Wxi f ( x i ; W ) = W x i $f(x_i;W)=Wx_i$ stays unchanged, but we now interpret these scores as the unnormalized log probabilities for each class and replace the hinge loss with a cross-entropy loss that has the form:

L i = - l o g (e f y j Σ k e f j)

$\normalsize L_i=−log\left( \frac{e^{f_{y_j}}}{\Sigma_k e^{f_j}} \right)$

qy_zhizi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Softmax classifier&交叉熵-cross-entropy

针对http://cs231n.github.io/linear-classify/的理解softmax function:fj(z)=eZjΣkeZkfj(z)=eZjΣkeZk f_j(z)=\frac{e^{Z_j}}{\Sigma_k e^{Z_k}} 其中eZjeZje^{Z_j}表示第j张图片的分数，ΣkeZkΣkeZk\Sigma_k e^{Z_k} 表示所有图片分数...
复制链接

扫一扫

专栏目录