probability:事件发生的概率, p
odds: 事件发生的概率和不发生的概率之比 p/(1-p)
logit:odds 的对数 log[p/(1-p)] (在DL模型中,全连接层的输出就是logits)
softmax
- soft版本的max,这是相对于hard版本的max而言的。相比于hard max,softmax能够放大不同的值之间的差异
- softmax作用是把一个序列变成一个概率分布。即序列中的每个值在0-1之间,并且所有值求和等于1
Softmax
有序列为
a
a
a,总共有n个元素。
a
i
a_i
ai为序列中的第i个元素,则对它求完softmax之后的值为:
S
i
=
e
a
i
/
∑
k
=
0
n
e
a
k
S_i = e^{a_i}/\sum_{k=0}^{n} e^{a_k}
Si=eai/k=0∑neak
logSoftmax(为了softmax数值计算的稳定性,对softmax再求一个log): S i ′ = l o g ( S i ) S_i' = log(S_i) Si′=log(Si)
交叉熵(衡量两个分布p,q的相似性):
C
(
p
,
q
)
=
−
∑
i
=
0
n
p
(
i
)
l
o
g
(
q
(
i
)
)
C(p,q) = - \sum_{i=0}^{n} p(i)log(q(i))
C(p,q)=−i=0∑np(i)log(q(i))
这里的
i
i
i指的是序列中的一个值,相当于上面提到的
a
i
a_i
ai。的
q
(
i
)
q(i)
q(i)就是对
i
i
i求softmax,
l
o
g
(
q
(
i
)
)
log(q(i))
log(q(i))就是对
i
i
i求logSoftmax。
https://zhuanlan.zhihu.com/p/27188729
https://www.zhihu.com/question/294679135