训练softmax分类器实例_assignment1-softmax分类器

理论知识

softmax函数如下:

a3959f90988fb369d1a2aa5772c60fda.png

一个样本在C个类别的评分为z,可以看出z为一个向量。softmax函数对

进行压缩,输出一个向量,其中每个元素值在0到1之间,且所有元素之和为1。

交叉熵定义如下:

7ab82f9ce637a4f945cf7b3c5c577d01.png

为真实的分布,
为估计分布。

将softmax函数与交叉熵相结合,就可以得到如下式子:

0f6487016e8bb19c20e73e7d48bab691.png

另一种等价的形式为:

5bcc080cba96afe8325b11c1310d23b1.png

信息理论的角度来理解:

相对熵也被称为KL散度,它用于衡量同一个随机变量X的两个分布p(X)和q(X)之间的差异,p(X)表示样本的真实分布,q(X)表示预测的分布,DL散度的公式如下:

相对熵的特点是只有只有p(x)=q(x)时,其值才为0,若p(x)和q(x)略有差异,其值就会大于0。

整理之后可以得到:

称为熵,而
则是交叉熵。

由于真实概率分布是固定的(虽然我们现在不知道,但我们有训练集),但是它的概率质量都分布在正确的类别上(

,即在
的位置有一个单独的1),所以H(p(x))为常数,那么就可以等价地把交叉熵损失函数看做对两个分布之间的相对熵做最小化操作,那么相对熵达到最小值的时候,也意味着交叉熵达到了最小值。对
的优化就等效于求交叉熵的最小值。
则是softmax函数。

概率论解释:

8e9dfedc60e4ef9487dfb7ec2a6aafd9.png

可以解释为是给定图像数据

,以
为参数,分配给正确分类标签
的归一化概率。在没有使用softmax之前的评分值则解释为没有归一化的
对数概率

现在我们想做的是找到使正确类别的概率最大的W,这正好是极大似然估计(MLE)的作用,即:

对其取负对数:

让似然函数的负对数最小就等价于似然函数最大,这和交叉熵的公式完全一样!

算法实现部分重点的就是求梯度和向量化了,这部分之后再统一写吧,之后的内容和SVM没什么差别,softmax分类器也是个模板匹配。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值