RL论文阅读5 - RWMFPE 2018

Tittle

image-20200512113433476source

标签

  • Model Based

总结

提出了一个新的Model-Based学习的框架。如图:

image-20200513184658508

这个模型一共分成三个部分:

V:用来将输入的图片编码成z。学习图像的抽象表示。

M:用来预测未来的z。M生成的是z的概率密度而不是直接生成z向量。

C:根据M产出的h和V产出的z,生成一个动作a。C一般是一个简单线性的。

在训练时:先训练V,然后用V的产出训练M,最后整合训练C

原理

这个论文的试验环境是两个游戏:Car Racing 和 VizDoom

环境的信息直接从每一帧的图像中提取。

  1. V

    V层使用的是Variational Atuoencoder(论文待看)的方式把图片帧压缩成向量z。具体的如图

    image-20200513190002699

左侧就是卷积卷积卷积。然后通过两个dense层分别生成 μ \mu μ σ \sigma σ,这里强行引入正态分布。z就是从 N ( μ , σ I ) N(\mu,\sigma I) N(μ,σI)这个分布中采样而来。

下面的Deconv层是从z中重构图片。利用重构的图片与输入图片的 L 2 L^2 L2距离以及KL loss去训练网络。这样能够保证z的表达正确性。

  1. M(Mixture Density Network + Recurrent Neural Network)

使用的是LSTM RNN结合Mixture Density Network作为输出层。如上图。

引入的一个超参 τ \tau τ

  1. C

    使用tanh作为激活函数。就是一个简单的一层。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值