TensorFlow2.0_交叉熵原理简介

最新推荐文章于 2021-02-04 00:34:52 发布

Scc_hy

最新推荐文章于 2021-02-04 00:34:52 发布

阅读量826

点赞数 2

分类专栏：深度学习文章标签：深度学习

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.csdn.net/Scc_hy/article/details/106136926

版权

深度学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

文章目录

一、香农熵
- 1.1 香农熵原理公式
- 1.2 香农熵tf示例
二、交叉熵（Cross Entropy）

一、香农熵

1.1 香农熵原理公式

在将交叉熵的时，先讲一下熵。
$-\sum{p_ilog_2{p_i}}$

熵越大，代表不确定性越大，信息也就越大。

1.2 香农熵tf示例

比如：
对于一个三分类：真实标签(one-hot之后) y_true = [0, 1, 0]，那么其熵就是0 。
TIP:关于tf2.0的任意对数底，以log2为例

y = tf.constant([2., 4., 8.])
# log2
tf.math.log(y)/tf.math.log([2.])

计算y_true的熵

y = tf.constant([1])
y_onehot = tf.one_hot(y, depth=3)

def H_p(y_):
    """
    计算熵
    """
    # 0- 计算熵
    h_lst = -tf.math.log(y_) / tf.math.log(2.0)
    # 1- 修正-np.inf
    # 1-1- 获取非-np.inf位置
    mask = h_lst.numpy() == np.inf 
    indices = tf.where(mask)
    # 1-2- 更新-np.inf
    if sum(mask[0]):
        update_zero = np.zeros(len(indices))
        h_lst_update = tf.scatter_nd(indices, update_zero, h_lst.shape)
    else:
        h_lst_update = h_lst
    return tf.reduce_sum(h_lst_update)


"""
>>> H_p(y_onehot)
<tf.Tensor: id=449, shape=(), dtype=float64, numpy=0.0>
>>>
"""

当预测值y_pred 返回为[0.1, 0.7, 0.2]是后的熵：
H_p(tf.constant([0.1, 0.7, 0.2)) = 6.158429

二、交叉熵（Cross Entropy）

2.1 交叉熵原理公式

交叉熵公式如下：
$-\sum{p_ilog_2{q_i}}$
可以分解成p的熵与p,q的KL散度。
$H(p, q) = H(p) + D_{kl}{(p|q)}$
KL散度是用于衡量两个分部之间的距离的指标，当p=q时，距离为0，定义如下：
$D_{kl}{(p|q)} = \sum{p_ilog_2{\frac{p_i}q_i}}$
简单推导：
$-\sum{p_ilog_2{p_i}} + \sum{p_ilog_2{\frac{p_i}q_i}}$
$-\sum{p_ilog_2{p_i}} + \sum{p_ilog_2 p_i} - \sum{p_ilog_2 q_i}= -\sum{p_ilog_2{q_i}}$

2.2 one-hot下交叉熵的变形

因为交叉熵可以分解成p的熵与p,q的KL散度，当one_hot情况下H(y)=0
所以：
$H(y, y_{pred}) = H(y) + D_{kl}{(y|y_{pred})} = D_{kl}{(y|y_{pred})}$
$\sum{y_ilog_2{\frac{y_i}y_{predi}}}$
$0+0+...+1log_2{\frac{1}y_{predi}}=-log_2y_{predi}$

可以看到， $L$ 只与真实类别i上的概率 $y_{predi}$ 有关，对应概率 $y_{predi}$ 越大，H(y, y_pred) 越小，当对应概率为1时，交叉熵H(y, y_pred)取得最小值0，此时网络输出y_pred与真实标签y完全一致，神经网络取得最优状态。

最小化交叉熵的过程也就是最大化政企类别的预测概率的过程。

2.3 tf2 实现


def crossentropy(y_, y_p):
    mask = y_.numpy() ==  1.0
    indices = tf.where(mask)
    # print(mask, indices)
    ypi = tf.gather_nd(y_p, indices)
    out = - tf.math.log(ypi) / tf.math.log(2.0)
    return tf.constant([0.]) if sum(out.numpy() == np.inf) else out

crossentropy( y_onehot, tf.constant([[0.1, 0.9, 0.2]]) )

Scc_hy

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
TensorFlow2.0_交叉熵原理简介

文章目录一、香农熵1.1 香农熵原理公式1.2 香农熵tf示例二、交叉熵（Cross Entropy）2.1 交叉熵原理公式2.2 one-hot下交叉熵的变形一、香农熵1.1 香农熵原理公式在将交叉熵的时，先讲一下熵。H(P)=−∑pilog2piH(P) = -\sum{p_ilog_2{p_i}}H(P)=−∑pilog2pi熵越大，代表不确定性越大，信息也就越大。1.2 香农熵tf示例比如：对于一个三分类：真实标签(one-hot之后) y_true = [0, 1, 0
复制链接

扫一扫