损失函数熵理解
详解:https://www.cnblogs.com/wangguchangqing/p/12068084.html#autoid-0-0-0
熵:信息量大小,和化学中的混乱程序想对比理解,越大表示不确定性越大,信息量越小;因此越小越好
![在这里插入图片描述](https://img-blog.csdnimg.cn/7484f2a6dd9743a6abde2b0d35090f0f.png#pic_center)
相对熵:也叫KL散度,两个概率分布的相似程度,越小越相似,从公式也可以看出来两个每个的概率都相同,那么为0;
![在这里插入图片描述](https://img-blog.csdnimg.cn/51baa70691a547d49b8436e931ec163f.png#pic_center)
交叉熵:目标分布与原分布的相似程度;
![在这里插入图片描述](https://img-blog.csdnimg.cn/27038a050cf844ffba267164fa3285bd.png#pic_center)
很多损失函数都是用交叉熵表示的,就是用自己求出的分布和原分布比较相似性,越小越好,其中含有的含义就是相似性。