BrokenTemplate23-CSDN博客

原创【深刻理解KL散度】为什么许多分类网络使用交叉熵作为损失函数，而非KL散度损失？交叉熵和KL散度的联系与区别。

这个其实很容易理解，如果一件事情很容易发生，比如说"明天会是晴天"，其包含的信息量很小，你会觉得很平常一件事儿，没有什么意思。而如果有个极小概率发生的事情比如"明天会发生地震"，你会觉得很震惊，因为它带来的信息量是很大的。有了信息量的概念之后，香农定义了信息熵，故也称为香农熵。不同于信息量描述的是一个随机事件，信息熵用于描述一个。以抛硬币为例，如果定义硬币朝上为事件。当一个均匀硬币，它的真实概率分布为。而在实验中，我们预测的概率分布为。通过上面的计算，我们可以观察到，对于一个非均匀硬币，

2024-04-22 22:53:38 1205

原创似然与最大似然估计

的先验知识，其服从0-1分布（均匀分布），满足全值域为常数。我们以高斯分布为例，尝试用贝叶斯公式来分析极大似然估计。，可以求得极大似然估计下最符合数据分布的高斯分布参数。一定程度上非常贴合所给数据分布，也就是说，在参数。在一组实验中我们观测到7次朝上，3次朝下，则。下，模型预测的值和真实值相对来说比较接近。为模型参数（理解为在某一环境条件下），这里我们假设没有参数。以抛硬币为例，我们假设正面的概率为。可以看作是问题的两个不同的方向，是数据的分布，是已知的常量。是什么的可能性，是关于。发生的可能性，是关于。

2024-04-21 20:25:56 928 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【深刻理解KL散度】为什么许多分类网络使用交叉熵作为损失函数，而非KL散度损失？交叉熵和KL散度的联系与区别。

原创 似然与最大似然估计

空空如也

空空如也

原创【深刻理解KL散度】为什么许多分类网络使用交叉熵作为损失函数，而非KL散度损失？交叉熵和KL散度的联系与区别。

原创似然与最大似然估计