- 博客(2)
- 收藏
- 关注
原创 【深刻理解KL散度】为什么许多分类网络使用交叉熵作为损失函数,而非KL散度损失?交叉熵和KL散度的联系与区别。
这个其实很容易理解,如果一件事情很容易发生,比如说"明天会是晴天",其包含的信息量很小,你会觉得很平常一件事儿,没有什么意思。而如果有个极小概率发生的事情比如"明天会发生地震",你会觉得很震惊,因为它带来的信息量是很大的。有了信息量的概念之后,香农定义了信息熵,故也称为香农熵。不同于信息量描述的是一个随机事件,信息熵用于描述一个。以抛硬币为例,如果定义硬币朝上为事件。当一个均匀硬币,它的真实概率分布为。而在实验中,我们预测的概率分布为。通过上面的计算,我们可以观察到,对于一个非均匀硬币,
2024-04-22 22:53:38 1205
原创 似然与最大似然估计
的先验知识,其服从0-1分布(均匀分布),满足全值域为常数。我们以高斯分布为例,尝试用贝叶斯公式来分析极大似然估计。,可以求得极大似然估计下最符合数据分布的高斯分布参数。一定程度上非常贴合所给数据分布,也就是说,在参数。在一组实验中我们观测到7次朝上,3次朝下,则。下,模型预测的值和真实值相对来说比较接近。为模型参数(理解为在某一环境条件下),这里我们假设没有参数。以抛硬币为例,我们假设正面的概率为。可以看作是问题的两个不同的方向,是数据的分布,是已知的常量。是什么的可能性,是关于。发生的可能性,是关于。
2024-04-21 20:25:56 928 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人