KL/JS/wasserstein距离

博客介绍了如何利用分布(如均匀分布和二项分布)来压缩并表示太空蠕虫牙齿数量的统计数据,通过KL散度来评估不同分布对真实数据的匹配程度,从而选择最佳的建模方式。
摘要由CSDN通过智能技术生成

一、分布

分布可能代指不同的东西,比如数据分布或者概率分布,我们这里所涉及的分布为概率分布。
概率分布:假设在一张纸上画了两根轴(X和Y),可以将一个分布想象成落在这两根轴之间的一条线。其中X表示不同的值,Y表示该值在整个值空间中的出现的概率,即y=p(x)。如我们可以将X轴看作是人的身高,Y轴是整个人群中对应X身高的人的概率。

分布存在的意义(示例)
存在的问题:举个例子,假设我们是一组正在广袤无垠的太空中进行研究的科学家,我们发现一些太空蠕虫,这些太空蠕虫的牙齿数量各不相同。现在我们需要将这些信息发回地球。但从太空向地球发送信息的成本很高,所以我们需要尽量少的数据表达这些信息。
解决的方法:我们有个好方法,我们不发送单个数值,而是绘制成一张图表,其中X轴表示所观察到的不同牙齿数量(1,2,3,…),Y轴式看到的太空蠕虫具有x颗牙齿的概率(即具有x颗牙齿的蠕虫的数量/蠕虫的总数量)。这样我们就将观察结果换成了分布。,发送分布比发送每只蠕虫的信息更有效。
进一步解决:但我们还能进一步压缩数据大小,我们可以利用一个已知分布来表示整个分布(比如:均匀分布、二项分布、正态分布)。举个例子,假如我们用均匀分布来表示真实分布,我们只需要发送两段数据就能恢复真实数据,即均匀概率和蠕虫数量。但我们怎样才能知道哪种分布能更好地解释真实分布呢?这就是KL散度的用武之地。
直观解释:KL散度是一种衡量两个分布(比如两条线)之间的匹配程度的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值