提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
一、熵与信息熵是什么?
“熵”形容系统混乱的程度,主要物理上面的用语。
“信息熵”也是用来信息的的程度,主要应用的领域是在信息论里面。
熵=信息熵
二、信息熵
举个例子:
其实这里可以发现班花A0.699要比班花B0.533要大的,也就说明A更混乱,所以也就可以说明,信息熵越大的,它越混乱。
补充:无论是以log为低还是以lg为低其实差别不大的
三、相对熵——>KL散度
相对熵就是KL散度
KL散度:是衡量两个概率分布差异的非对称性度量。
通俗说法:KL散度就是用来衡量同一个随机变量的两个不同分布之间的距离。
3.1KL散度公式
3.2KL散度的特性
举一个例子
从上面的例子,信息熵与KL散度并没有任何相关联。
3.3KL散度公式变形
从这个公式变形引出交叉熵
四、交叉熵
主要应用与度量同一个随机变量X的预测分布Q与真实分布P之间的差距。
4.1交叉商的公式
举个例子
- 通过预测值分布与真实值分布之间进行交叉商,就可以判断预测是否正确
- 通过之后的预测正确概率,可以看出交叉熵越小,可信度越高
- 交叉熵只和真实标签的预测只有关
4.2交叉熵的最简化公式
4.3交叉熵二分类公式
举一个例子:
无论是普通公式,还是简化公式,答案都是一样的。
4.4交叉熵与KL散度用法
五、softmax函数
5.1 softmax意义
- 将数字转换成概率。
- 进行数据归一化。
5.2 softmax公式
举一个例子:
以上就是有3个数,转换成概率的例子,感觉不是很形象。。。。。emo。
六、sigmod函数
6.1sigmod意义
- sigmod函数也叫logistics函数。
- 取值范围为(0,1)
- 神经网络常用的激活函数。
- 常用与二分类问题。
6.2sigmod公式
七、CorssEntropyLoss()函数详解
CorrEntropyLoss()——交叉熵
7.1CorssEntropyLoss()函数公式
损失函数中也有权重weight参数设置,若设置权重,则公式为:
解析
- 上面这个就是softmax的公式,class就是值在整个数组中的概率。
- 外层的log就是简化交叉熵公式
*这里的exp就是e的指数
举一个例子:
手动计算与程序计算是一样。
八、常见的交叉熵损失函数类型
总结
1、信息熵——形容数据混乱程度,信息熵越大的,它越混乱。
2、相对熵——KL散度,两个分布的差异,从而推导出相对熵=交叉熵-信息熵。
3、交叉熵——通过预测值分布与真实值分布之间进行交叉熵,交叉熵越小,可信度越高。
4、softmax函数与sigmod函数,主要作用,数据归一化等
5、交叉熵损失函数类型
参考资料:
https://www.bilibili.com/video/BV1Wq4y1L7Tu?share_source=copy_web