VAE学习小记

  • 神经网络基本不可能实现百分之百的 x = f ( x ) x=f(x) x=f(x),再被压缩之后再解压中产生损失,这个类似于有损压缩。

信息论中的熵,用来衡量一个事件所蕴含的信息量,信息量受事件的概率影响,事件概率大的信息量相对低,事件概率小的,信息量高。

  • 为什么信息量大?因为内容出乎意料,违反常理,难以预测,用少的信息难以描述这个内容,必须要用更多的信息去描述。
    信息熵就是一个系统内的所有事件的信息量之和。
  • S ( x ) = − Σ i P ( x i ) l o g b P ( x i ) S(x)=-\Sigma_iP(x_i)log_bP(x_i) S(x)=ΣiP(xi)logbP(xi) 其中 P ( x i ) P(x_i) P(xi)表示事件概率,而 l o g b P ( x i ) log_bP(x_i) logbP(xi)表示这个事件的信息量。那么这个加和就是一个系统的信息熵,也就是这个系统内的众多事件x,所蕴含的信息量的期望。
KL散度
  • 用于衡量两个分布之间的距离,也可以理解两个事件之间的区别。
  • KL散度定义式: D K L ( A ∣ ∣ B ) = Σ i P A ( x i ) l o g b P A ( x i ) − Σ i P A ( x i ) l o g b P B ( x i ) D_{KL}(A||B)=\Sigma_iP_A(x_i)log_bP_A(x_i)-\Sigma_iP_A(x_i)log_bP_B(x_i) DKL(A∣∣B)=ΣiPA(xi)logbPA(xi)ΣiPA(xi)logbPB(xi)
    这个式子表达的是,如果B系统把他所有的事件的信息熵求出来,再
    从这个式子上来看就是表示A系统的信息熵减去B事件(或系统)在A系统的信息熵,那么也可以简化理解为A系统内的期望信息量减去如果B在A系统内部的信息量之差是多少,就可以衡量出在A看来,到B系统需要多少距离
作用原理

VAE可以看作高斯混合模型的叠加。就像是傅立叶级数一样,任何分布都可以看作高斯混合模型的叠加。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值