2021-07-23 深度学习基础与实践(六)

本文深入探讨了信息熵的概念,包括信息熵、交叉熵、相对熵(KL散度)、JS散度、联合熵、条件熵和互信息,并提供了文氏图的图解。此外,还讲解了反向传播中梯度计算的重要性,通过实例解释了sigmoid函数和矩阵相乘的梯度计算过程。
摘要由CSDN通过智能技术生成


今天再来介绍一些概念性知识

一、信息熵

  • 热力学中的熵: 是表示分子状态混乱程度的物理量
  • 信息论中的熵:用来描述信源的不确定性的大小
  • 经常使用的熵概念有下列几种:
    信息熵
    交叉熵
    相对熵
    条件熵
    互信息

1.信息熵

  • 信源信息的不确定性函数 f f f通常满足两个条件:

    1. 是概率 p p p的单调递减函数
    2. 两个独立符号所产生的不确定性应等于各自不确定性之和,即 f ( p 1 , p 2 ) = f ( p 1 ) + f ( p 2 ) f(p_1,p_2) = f(p_1) + f(p_2) f(p1,p2)=f(p1)+f(p2)
  • 对数函数同时满足这两个条件: f ( p ) = l o g 1 p = − l o g p f(p) = log\frac{1}{p} = -logp f(p)=logp1=logp

  • 信息熵:要考虑信源所有可能发生情况的平均不确定性。若信源符号有n种取值: U 1 , . . , U i , . . . , U n U_1,..,U_i,...,U_n U1,..,Ui,...,Un,对应概率为 p 1 , . . . , p i , . . . , p n p_1,...,p_i,...,p_n p1,...,pi,...,pn,且各种出现彼此独立。此时信源的平均不确定性应当为单个符号不确定性 log ⁡ p i \log p_i logpi的统计平均值(E),称为信息熵,即 H ( U ) = E [ − l o g p i ] = − ∑ i = 1 n p i l o g p i = ∑ i = 1 n p i l o g ( 1 p i ) H(U) = E[-log p_i] = -\sum_{i = 1}^{n}{p_i logp_i} = \sum_{i = 1}^{n} p_i log(\frac{1}{p_i}) H(U)=E[logpi]=i=1npilogpi

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值