RL论文阅读5 - RWMFPE 2018

最新推荐文章于 2023-01-15 22:01:27 发布

SpadeA_Iverxin

最新推荐文章于 2023-01-15 22:01:27 发布

阅读量259

点赞数

分类专栏：论文阅读文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/106105163

版权

论文阅读专栏收录该内容

32 篇文章 5 订阅

订阅专栏

Tittle

标签

Model Based

总结

提出了一个新的Model-Based学习的框架。如图：

这个模型一共分成三个部分：

V：用来将输入的图片编码成z。学习图像的抽象表示。

M：用来预测未来的z。M生成的是z的概率密度而不是直接生成z向量。

C：根据M产出的h和V产出的z，生成一个动作a。C一般是一个简单线性的。

在训练时：先训练V，然后用V的产出训练M，最后整合训练C

原理

这个论文的试验环境是两个游戏：Car Racing 和 VizDoom

环境的信息直接从每一帧的图像中提取。

V

V层使用的是Variational Atuoencoder(论文待看)的方式把图片帧压缩成向量z。具体的如图

左侧就是卷积卷积卷积。然后通过两个dense层分别生成 $\mu$ 和 $\sigma$ ，这里强行引入正态分布。z就是从 $N(\mu,\sigma I)$ 这个分布中采样而来。

下面的Deconv层是从z中重构图片。利用重构的图片与输入图片的 $L^2$ 距离以及KL loss去训练网络。这样能够保证z的表达正确性。

M（Mixture Density Network + Recurrent Neural Network）

使用的是LSTM RNN结合Mixture Density Network作为输出层。如上图。

引入的一个超参 $\tau$

C

使用tanh作为激活函数。就是一个简单的一层。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RL论文阅读5 - RWMFPE 2018

Tittlesource标签Model Based总结提出了一个新的Model-Based学习的框架。如图：这个模型一共分成三个部分：V：用来将输入的图片编码成z。学习图像的抽象表示。M：用来预测未来的z。M生成的是z的概率密度而不是直接生成z向量。C：根据M产出的h和V产出的z，生成一个动作a。C一般是一个简单线性的。在训练时：先训练V，然后用V的产出训练M，最后整合训练C原理这个论文的试验环境是两个游戏：Car Racing 和 VizDoom环境的信息直接从每一帧的图像
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。