深度学习笔记(13) Softmax分类
1. Softmax 回归
有一种logistic回归的一般形式,叫做 Softmax回归
能在试图识别某一分类时做出预测
或者说是多种分类中的一个,不只是识别两个分类
假设不单需要识别猫,而是想识别猫,狗和小鸡
把猫加做类1,狗为类2,小鸡是类3
如果不属于以上任何一类,就分到“其它”或者说“以上均不符合”这一类,把它叫做类0
用大写的C来表示输入会被分入的类别总个数
建立一个神经网络,其输出层有4个,或者说C个输出单元
因此n,即输出层也就是L层的单元数量,等于4,或者一般而言等于C
则输出层单元的数字代表这4种类型中每个的概率
做到这一点的标准模型要用到Softmax层,以及输出层来生成输出
对于L层,得到的z值
用这个元素取幂方法来计算 t:
把四个数字加起来得到176.3
最终 a[l] = t / 176.3
第一个节点输出 e5/176.3=0.842,也就是概率84.2%
Softmax激活函数的特殊之处在于
因为需要将所有可能的输出归一化,就需要输入一个向量,最后输出一个向量
Softmax分类器还可以代表的决策边界
2. 练一个Softmax分类器
简单来说就是用临时变量t将它归一化,使总和为1,于是这就变成了a[L]
注意到向量z中,最大的元素是5
而最大的概率也就是第一种概率,Softmax把向量z变成这个向量
在Softmax分类中,一般用到的损失函数是来训练这个神经网络
这就意味着,如果试图将它变小
因为梯度下降法是用来减少训练集的损失的
要使它变小的唯一方式就是使 -log
y ^ \widehat{y}
y
1 变小,即需要使
y ^ \widehat{y}
y
1 尽可能大
整个训练集的损失
参考:
相关推荐:
深度学习笔记(12)Batch归一化网络
深度学习笔记(11)超参数调试
深度学习笔记(10)优化算法(二)
深度学习笔记(9) 优化算法(一)
深度学习笔记(8) 实践层面(三)
谢谢!