熵与交叉熵

很多人对熵都理解不清楚,我分析一下原因。首先熵的定义是一件事情的不确定性,不确定性越大,熵就越大,熵越大需要消除这种不确定性的信息量就越大,因此直观上信息量和熵成正比。这时可能就犯晕了,比如第一条信息是:北京发生了地震,另一条信息是发生了地震,不确定是北京还是天津,可能性都是0.5。直觉上第一条信息信息量大啊,因为都告诉我们哪发生了地震。第二条没有给我提供信息啊,等于没说。但显然第二条信息的不确定性大,因此按照熵的定义对应的信息量也更大,这就造成了矛盾。但如果说需要消除这种不确定性的信息量越大可能就好理解了。
    
为什么呢,因为我们要理解香浓信息论模型是如何定义熵的,我们要从模型的角度出发,而信息论模型的关键是就是编码解码,更具体些就是寻找能最大挖掘可消除不确定性的信息。再看第一条信息,说北京发生了地震,这是一条确定的信息,模型找不到信息量去消除不确定性,当然就不具有信息量,所以理解熵一定要从信息论模型角度去理解。
    
有了熵的概念就引出了交叉熵的概念,就是两件事情概率分布的差异,两件事情完全不相关,说明不确定性大,则熵也大,可以理解用一件事情去推理另一件事情需要付出的代价就很大,需要的信息量就越大,因为两件事情完全不相关。两件事情完全相关,那用一件事情就可以很好的推理另一件事情,需要付出的代价就很少。这样就可以用交叉熵来定义损失函数了,做反向梯度传播算法的依据。
    
我们训练一个模型,模型输出反映了一种分布,期望输出反映了另一种分布,我们希望两种分布完全一致最好,这样这个模型就可以很好的预测了。但在模型训练前,模型的输出概率分布很可能和期望输出分布完全不相关,这样用这个模型预测代价是最大的,说明这里面包含大量的信息,而这个模型和训练过程就是发现这些信息,用这些信息量消除不确定性的过程,最终是代价最小。这就是分类的最基本思想。
    
由于熵都是概率分布,因此使用交叉熵之前要把输入规范到0-1之间一种概率分布的形式,2分类就用logistics,多分类就用softmax。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值