交叉熵可以用来计算代价的原因

记录笔记,以便日后查阅
查阅的时候记得在网上查阅三个公式(自信息,即熵;KL散度;交叉熵),记录在草稿纸上以便对比
1.对于KL散度的公式,仔细观察可以发现,对于A,B之间KL散度其实等于A,B交叉熵减去A的自信息;
2.当A的分布固定时,也就是A的自信息不变,则KL散度等价与交叉熵;
3.在机器学习中,我们要做到的是尽量让三个分布相近:模型的分布,训练数据的分布,真实数据的分布(这个分布我们不得而知,所以用测试数据分布代替,这个里面的原因是另一个问题了,这里不多赘述);
4.训练时要做到模型的分布和训练数据的分布相近(至于后两者属于数据的问题,与模型无关,不赘述);
5.所以,我们要减小模型与训练数据分布之间的KL散度;
6.又因为训练数据(即A)的分布是固定的,所以,减小KL散度也就等价与减小交叉熵,故交叉熵可以用来计算代价。

总结:为了让模型分布更加贴近真实数据分布,就要最小化模型数据分布与训练数据分布的KL散度,因为训练数据的分布是固定的,所以最小化KL散度就等价与最小化交叉熵。

对于三个概念的理解(个人比较好理解的一种解释):
1.自信息:对A事件中随机变量编码需要的最小字节数;
2.KL散度:如果我们用B来编码表示A时需要的“额外编码长度”;
3.交叉熵:用B作密码来表示A时需要的“平均长度”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值