vae自动编码器_时序差分变分自动编码器

TD-VAE是DeepMind在ICLR2019提出的一种序列生成模型,结合了强化学习的时序差分和变分自动编码器,能预测不固定时间步的序列。该模型强调学习数据的抽象状态表示、置信状态以及时序抽象能力。优化目标是最大化对数条件似然,损失函数包括多个组成部分。实验结果显示模型在不同任务上表现优秀。
摘要由CSDN通过智能技术生成

简介

【笔记版】

今天要讲的是ICLR2019中DeepMind的一个高分工作,TD-VAE,一个序列生成模型。通过引入强化学习中时序差分以及变分自动编码器,来实现从当前时间步到未来时间步的预测。这里值得注意的是,TD-VAE并不是一个固定时间步的序列生成模型(当然如果训练时喂的训练数据是一个时间间隔固定的序列数据,那么训练出的模型就是固定时间步的序列生成模型),即其生成的数据时间间隔不是一个固定的时间步,而是随机的。如果想生成数据的时间间隔可控,那么可以在前向模型的建模中显式地将时间步作为变量即可。

这篇论文的作者认为,一个序列生成模型需要具备以下三点属性:

  • 这个模型应该学习一个数据的抽象状态表示并且在状态空间中进行预测,而不是在观察空间进行预测。
  • 这个模型应该学习一个置信状态,这个状态需要包含目前为止智能体对于周围环境的所有感知信息。置信状态相当于状态表示的隐变量。
  • 这个模型应该表现出时序抽象,既能够直接预测多个时间步之后的状态,也能够只通过两个独立的时间点进行训练而不需要中间所有时间点的信息。

优化目标

TD-VAE的目标便是优化以下对数条件似然:

$$log p(x_t|x_{这里假设

可以通过该时间步以及上一个时间步的状态表示
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值