深度学习笔记——信息熵、相对熵、KL散度、交叉熵、softmax、sigmoid、交叉熵损失基本概念

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

一、熵与信息熵是什么?

“熵”形容系统混乱的程度,主要物理上面的用语。
“信息熵”也是用来信息的的程度,主要应用的领域是在信息论里面。
熵=信息熵


二、信息熵

在这里插入图片描述
举个例子:
在这里插入图片描述
其实这里可以发现班花A0.699要比班花B0.533要大的,也就说明A更混乱,所以也就可以说明,信息熵越大的,它越混乱。

补充:无论是以log为低还是以lg为低其实差别不大的

三、相对熵——>KL散度

相对熵就是KL散度
KL散度:是衡量两个概率分布差异的非对称性度量。
通俗说法:KL散度就是用来衡量同一个随机变量的两个不同分布之间的距离。

3.1KL散度公式

在这里插入图片描述

3.2KL散度的特性

在这里插入图片描述
举一个例子
在这里插入图片描述
从上面的例子,信息熵与KL散度并没有任何相关联。

3.3KL散度公式变形

在这里插入图片描述
从这个公式变形引出交叉熵

四、交叉熵

主要应用与度量同一个随机变量X的预测分布Q与真实分布P之间的差距。

4.1交叉商的公式

在这里插入图片描述
举个例子
在这里插入图片描述

  • 通过预测值分布与真实值分布之间进行交叉商,就可以判断预测是否正确
  • 通过之后的预测正确概率,可以看出交叉熵越小,可信度越高
  • 交叉熵只和真实标签的预测只有关

4.2交叉熵的最简化公式

在这里插入图片描述

4.3交叉熵二分类公式

在这里插入图片描述
举一个例子:
在这里插入图片描述
无论是普通公式,还是简化公式,答案都是一样的。

4.4交叉熵与KL散度用法

在这里插入图片描述

五、softmax函数

5.1 softmax意义

  • 将数字转换成概率。
  • 进行数据归一化。

5.2 softmax公式

在这里插入图片描述
举一个例子:
在这里插入图片描述
以上就是有3个数,转换成概率的例子,感觉不是很形象。。。。。emo。

六、sigmod函数

6.1sigmod意义

  • sigmod函数也叫logistics函数。
  • 取值范围为(0,1)
  • 神经网络常用的激活函数。
  • 常用与二分类问题。

6.2sigmod公式

在这里插入图片描述

七、CorssEntropyLoss()函数详解

CorrEntropyLoss()——交叉熵

7.1CorssEntropyLoss()函数公式

在这里插入图片描述
损失函数中也有权重weight参数设置,若设置权重,则公式为:
在这里插入图片描述
解析

在这里插入图片描述

  • 上面这个就是softmax的公式,class就是值在整个数组中的概率。
  • 外层的log就是简化交叉熵公式
    *这里的exp就是e的指数
    举一个例子:
    在这里插入图片描述
    手动计算与程序计算是一样。

八、常见的交叉熵损失函数类型

在这里插入图片描述

总结

1、信息熵——形容数据混乱程度,信息熵越大的,它越混乱。
2、相对熵——KL散度,两个分布的差异,从而推导出相对熵=交叉熵-信息熵。
3、交叉熵——通过预测值分布与真实值分布之间进行交叉熵,交叉熵越小,可信度越高。
4、softmax函数与sigmod函数,主要作用,数据归一化等
5、交叉熵损失函数类型


参考资料:
https://www.bilibili.com/video/BV1Wq4y1L7Tu?share_source=copy_web

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值