损失函数熵理解
详解:https://www.cnblogs.com/wangguchangqing/p/12068084.html#autoid-0-0-0
熵:信息量大小,和化学中的混乱程序想对比理解,越大表示不确定性越大,信息量越小;因此越小越好
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/b2e3663331a568ebfb3bfabffdd1d8c8.png)
相对熵:也叫KL散度,两个概率分布的相似程度,越小越相似,从公式也可以看出来两个每个的概率都相同,那么为0;
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/120020eaa36ea74da3e865e56ed1462b.png)
交叉熵:目标分布与原分布的相似程度;
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/0c372f631f24a22060fc2f89e9add6df.png)
很多损失函数都是用交叉熵表示的,就是用自己求出的分布和原分布比较相似性,越小越好,其中含有的含义就是相似性。