2019/5/13 基于模型的强化学习方法

最新推荐文章于 2024-04-10 10:45:13 发布

茶花煮酒

最新推荐文章于 2024-04-10 10:45:13 发布

阅读量886

点赞数 1

分类专栏：强化学习与机器人控制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq446293528/article/details/90170718

版权

强化学习与机器人控制专栏收录该内容

24 篇文章 10 订阅

订阅专栏

注：论文写作四项工作

工作一：查阅100篇，挑选30篇，核心参考3-5篇，“看懂”一篇

工作二：提出难点问题，提出新概念。例：多光谱、注意力机制

工作三：修改算法，网络结构、损失函数、步数

工作四：写写写，改改改。图片精修，丰富实验，首句中心。

基于模型的的强化学习是比无模型难很多的问题。

一、状态转移概率

1、马氏决策过程可以利用五元组（S,A,P,r,y）来描述。根据状态转移概率是否已知，可以分为基于模型和基于无模型的强化学习方法。

2、状态转移为什么会不可知？

比如一阶倒立摆，设置状态为位置和角度，动作为左右施加力。状态转移概率可以通过公式计算。

比如高阶倒立摆，同样的状态和动作，状态转移概率基本无法通过公式计算。

所以，状态转移概率不可知的原因：问题的复杂度，环境不能完全观测

二、动态规划

三、基于模型的强化学习可以利用动态规划解决

1、基于模型的强化学习可以利用动态规划解决。

动态指序列状态变化，规划指优化，如线性优化、二次优化、非线性优化。

动态规划分策略迭代、值迭代两种方法

2、值迭代：值迭代是用来估计最优值函数的一种方法。不同于策略迭代，值迭代直接收敛到最优策略和最优值函数。

3、策略迭代：策略评估、策略改进迭代，直到策略收敛。

4、公式推导

累计回报： $G_{t}= \sum_{k=0}^{\infty }\gamma ^{k}R_{t+k+1}$

状态值函数： $V_{\pi }\left ( s \right )=E\left ( \sum_{k=0}^{\infty }\gamma ^{k}\right R_{t+k+1}\mid s_{t}=s})\left$

状态行为函数（Q函数）： $Q_{\pi }\left ( s,a \right )=E\left ( \sum_{k=0}^{\infty }\gamma ^{k} R_{t+k+1} \mid s_{t}=s , a_{t}=a\right )$

最优贝尔克曼方程：

转自：增强学习（一）——马尔科夫决策过程（MDP）

四、PILCO

底层：采用高斯过程模型学习状态转移的概率模型。

中层：利用状态转移模型和策略，评估累计回报（类似于损失函数）。

顶层：利用梯度法，对策略的参数更新。

参考文献：https://bigquant.com/community/t/topic/121176 强化学习前沿第三讲基于模型的强化学习方法 PILCO及其扩展（二）

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
2019/5/13 基于模型的强化学习方法

注：论文写作四项工作工作一：查阅100篇，挑选30篇，核心参考3-5篇，“看懂”一篇工作二：提出难点问题，提出新概念。例：多光谱、注意力机制工作三：修改算法，网络结构、损失函数、步数工作四：写写写，改改改。图片精修，丰富实验，首句中心。基于模型的的强化学习是比无模型难很多的问题。一、状态转移概率 1、马氏决策过程可以利用五元组（S,A,P,r,y）来...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。