DeepReinforcementlearning:AnOverview paper总结

Deep Reinforcement Learning: An Overview
Introduction
高维的input-data in learning-control-policies in complex RL environment
2,3节 deep RL内容,介绍三种常用的Deep learning结构
4节 监督/无监督model in deep RL

Reinforcement Learning
finite MDP markov decision process
1.action-value:动作转移概率 + 折扣因子
2.state-value:
==》 这两者都有递归形式公式
state-action table表用来存储state-aciton pairs
3.如何处理连续问题呢?
estimator of action-value funciton参数θ 作为动作-值近似函数
4.SGD求解θ使得loss函数最小
5.action-value近似函数形式(关于θ的函数):
linear(可以保证收敛性) 或者 NN(常见CNN RNN)

Deep Learning
深度学习特性:自动提取高维输入数据,例如image或者object的深层次特征
介绍三种常见的DRL framework
1.Autoencoder
denoising 具体是干嘛的?不了解
deep autoencoders is unsupervised deep feature
2.CNN
CNN is categorised in Supervised DL Models. 监督学习的分类模型
基本原理看CS231N
3.RNN
Long short term memory,LSTM来解决RNN的gradient vanishing or gradient explosion

Deep Supervised and Unsupervised Learning Models for Reinforcement Learning
1.RL with Supervised learning
Neural Fitted Q是model free方法。
ALE环境提供了大量的Atari游戏。
DQN: experience replay打破了数据之间的强关联性 + agent存储(st,at,rt,rt+1)
Mont Carlo Tree Search 树搜索避免大量的episodes模拟
举例两篇论文
1.1.[20]基于视觉的visual based的RL,使用压缩RNN,同时使用进化算法将神经网络演化为action-value的近似函数
1.2.[32]整合CNN RNN RL解决条件-动作的框架

2.RL with unsupervised learning
DFQ 处理连续的grid-world tasks

3.partially onservable MDP environment
以单帧作为输入的DRQN效果优于DQN

Conclusions and Future Work in Deep Reinforcement Learning

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值