一、香农熵
1.1 香农熵原理公式
在将交叉熵的时,先讲一下熵。
H
(
P
)
=
−
∑
p
i
l
o
g
2
p
i
H(P) = -\sum{p_ilog_2{p_i}}
H(P)=−∑pilog2pi
熵越大,代表不确定性越大,信息也就越大。
1.2 香农熵tf示例
比如:
对于一个三分类:真实标签(one-hot之后) y_true = [0, 1, 0]
, 那么其熵就是0 。
TIP:关于tf2.0的任意对数底,以log2为例
y = tf.constant([2., 4., 8.])
# log2
tf.math.log(y)/tf.math.log([2.])
计算y_true的熵
y = tf.constant([1])
y_onehot = tf.one_hot(y, depth=3)
def H_p(y_):
"""
计算熵
"""
# 0- 计算熵
h_lst = -tf.math.log(y_) / tf.math.log(2.0)
# 1- 修正-np.inf
# 1-1- 获取非-np.inf位置
mask = h_lst.numpy() == np.inf
indices = tf.where(mask)
# 1-2- 更新-np.inf
if sum(mask[0]):
update_zero = np.zeros(len(indices))
h_lst_update = tf.scatter_nd(indices, update_zero, h_lst.shape)
else:
h_lst_update = h_lst
return tf.reduce_sum(h_lst_update)
"""
>>> H_p(y_onehot)
<tf.Tensor: id=449, shape=(), dtype=float64, numpy=0.0>
>>>
"""
当预测值y_pred 返回为[0.1, 0.7, 0.2]是后的熵:
H_p(tf.constant([0.1, 0.7, 0.2)) = 6.158429
二、交叉熵(Cross Entropy)
2.1 交叉熵原理公式
交叉熵公式如下:
H
(
p
,
q
)
=
−
∑
p
i
l
o
g
2
q
i
H(p, q) = -\sum{p_ilog_2{q_i}}
H(p,q)=−∑pilog2qi
可以分解成p的熵与p,q的KL散度。
H
(
p
,
q
)
=
H
(
p
)
+
D
k
l
(
p
∣
q
)
H(p, q) = H(p) + D_{kl}{(p|q)}
H(p,q)=H(p)+Dkl(p∣q)
KL散度是用于衡量两个分部之间的距离的指标,当p=q时,距离为0,定义如下:
D
k
l
(
p
∣
q
)
=
∑
p
i
l
o
g
2
p
i
q
i
D_{kl}{(p|q)} = \sum{p_ilog_2{\frac{p_i}q_i}}
Dkl(p∣q)=∑pilog2qpii
简单推导:
H
(
p
,
q
)
=
−
∑
p
i
l
o
g
2
p
i
+
∑
p
i
l
o
g
2
p
i
q
i
H(p, q) = -\sum{p_ilog_2{p_i}} + \sum{p_ilog_2{\frac{p_i}q_i}}
H(p,q)=−∑pilog2pi+∑pilog2qpii
=
−
∑
p
i
l
o
g
2
p
i
+
∑
p
i
l
o
g
2
p
i
−
∑
p
i
l
o
g
2
q
i
=
−
∑
p
i
l
o
g
2
q
i
= -\sum{p_ilog_2{p_i}} + \sum{p_ilog_2 p_i} - \sum{p_ilog_2 q_i}= -\sum{p_ilog_2{q_i}}
=−∑pilog2pi+∑pilog2pi−∑pilog2qi=−∑pilog2qi
2.2 one-hot下交叉熵的变形
因为交叉熵可以分解成p的熵与p,q的KL散度,当one_hot情况下H(y)=0
所以:
H
(
y
,
y
p
r
e
d
)
=
H
(
y
)
+
D
k
l
(
y
∣
y
p
r
e
d
)
=
D
k
l
(
y
∣
y
p
r
e
d
)
H(y, y_{pred}) = H(y) + D_{kl}{(y|y_{pred})} = D_{kl}{(y|y_{pred})}
H(y,ypred)=H(y)+Dkl(y∣ypred)=Dkl(y∣ypred)
=
∑
y
i
l
o
g
2
y
i
y
p
r
e
d
i
= \sum{y_ilog_2{\frac{y_i}y_{predi}}}
=∑yilog2yyipredi
=
0
+
0
+
.
.
.
+
1
l
o
g
2
1
y
p
r
e
d
i
=
−
l
o
g
2
y
p
r
e
d
i
= 0+0+...+1log_2{\frac{1}y_{predi}}=-log_2y_{predi}
=0+0+...+1log2y1predi=−log2ypredi
可以看到,
L
L
L只与真实类别i上的概率
y
p
r
e
d
i
y_{predi}
ypredi 有关,对应概率
y
p
r
e
d
i
y_{predi}
ypredi 越大,H(y, y_pred)
越小,当对应概率为1时, 交叉熵H(y, y_pred)
取得最小值0,此时网络输出y_pred与真实标签y完全一致,神经网络取得最优状态。
最小化交叉熵的过程也就是最大化政企类别的预测概率的过程。
2.3 tf2 实现
def crossentropy(y_, y_p):
mask = y_.numpy() == 1.0
indices = tf.where(mask)
# print(mask, indices)
ypi = tf.gather_nd(y_p, indices)
out = - tf.math.log(ypi) / tf.math.log(2.0)
return tf.constant([0.]) if sum(out.numpy() == np.inf) else out
crossentropy( y_onehot, tf.constant([[0.1, 0.9, 0.2]]) )