什么是softmax
softmax函数定义如下:
S
i
=
e
V
i
∑
i
C
e
V
i
S_i=\frac {e^{V_i}}{\sum_{i}^{C}e^{V_i}}
Si=∑iCeVieVi
where
V
i
V_i
Vi------分类器前级输出单元的输出
i
i
i------类别索引
C
C
C------总的类别个数
softmax将多分类的输出数值转化为相对概率,更容易理解和比较。
例子:
一个多分类问题,
C
=
4
C=4
C=4。线性分类器模型最后输出层包含四个输出值,分别是:
V
=
[
−
3
2
−
1
0
]
V=\begin{bmatrix}-3\\ 2\\ -1\\ 0\\\end{bmatrix}
V=⎣⎢⎢⎡−32−10⎦⎥⎥⎤
经过softmax处理后,数值转化为相对概率:
V
=
[
0.0057
0.8390
0.0418
0.1135
]
V=\begin{bmatrix}0.0057\\ 0.8390\\ 0.0418\\ 0.1135\\\end{bmatrix}
V=⎣⎢⎢⎡0.00570.83900.04180.1135⎦⎥⎥⎤
很明显,Softmax 的输出表征了不同类别之间的相对概率。我们可以清晰地看出, S 1 = 0.8390 S_1 = 0.8390 S1=0.8390,对应的概率最大,则更清晰地可以判断预测为第1类的可能性更大。Softmax 将连续数值转化成相对概率,更有利于我们理解。
实际应用中,使用 softmax 需要注意数值溢出的问题。因为有指数运算,如果 V V V数值很大,经过指数运算后的数值往往可能有溢出的可能。所以,需要对 V V V进行一些数值处理:即 V V V中的每个元素减去 V V V中的最大值。
D
=
m
a
x
(
V
)
D = max(V)
D=max(V)
S
i
=
e
V
i
−
D
∑
i
C
e
V
i
−
D
S_i=\frac {e^{V_i-D}}{\sum_{i}^{C}e^{V_i-D}}
Si=∑iCeVi−DeVi−D
相应的python程序:
scores = np.array([123, 456, 789]) # example with 3 classes and each having large scores
scores -= np.max(scores) # scores becomes [-666, -333, 0]
p = np.exp(scores) / np.sum(np.exp(scores))
Reference:
https://blog.csdn.net/raojunyang/article/details/81194793