强化学习(2)---马尔科夫决策

最新推荐文章于 2024-01-05 15:31:04 发布

浪里摸鱼

最新推荐文章于 2024-01-05 15:31:04 发布

阅读量232

点赞数

分类专栏：深度学习文章标签：强化学习马尔科夫决策过程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42802447/article/details/109207621

版权

深度学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

需要知道的一些概念

马尔科夫决策过程

马尔科夫链

马尔科夫奖励过程

马尔科夫中的价值函数

马尔科夫决策过程的控制：policy iteration value iteration

基于价值函数的agent：不使用决策函数，在价值函数中推测police
基于police的agent：不使用价值函数
两个都用

通过模型使用不同分类：

看会否有环境转移模型

马尔科夫决策过程是强化学习的基本框架，环境是全部可以观测
如果说状态转移属于马尔科夫就是说一个状态的下一状态是取决于它当前状态和它当前状态之前的状态没有关系
状态转移矩阵描述状态转移，描述了从一个节点到其他节点的概率

给定状态转移的马尔科夫链之后，可以对链进行采样得到一串轨迹

马尔科夫奖励过程是马尔科夫链加上一个奖励函数

在马尔科夫奖励之中，矩阵和他的状态都是和马尔科夫链一样的，奖励函数是一个期望，当到达某一个状态的时候可以获得多大的奖励，另定义了一个折扣量：discount factor 伽马，折扣量是为了更快

可以将马尔科夫过程看做一个纸船，放在河流中会随着河流动，但是他自身没有动力，决策就像船桨

一些概念：

Horizon：说明同一个？？？？没懂

定义一个return：将后面的奖励进行折扣，越往后折扣越多(希望现在得到奖励而不是后面再得到奖励)

如何定义价值函数？

Monte_Carlo采样：可以定义很多很多过程，通过计算每次通过S4的价值求平均可以估计通过S4状态的价值

Analytic solution(只能针对少量状态时候，因为求逆的时间复杂度太大)：

可以从价值函数中推倒出Bellman等式

定义了当前状态和未来状态的关系

迭代方法：（用来解状态比较多的）

1.动态规划

TD是动态规划和Monte_Carlo方法的结合

先用解析，解析不行就用迭代

马尔科夫决策过程比马尔科夫奖励过程多了一个决策(decision)

马尔科夫决策过程转换成马尔科夫链过程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浪里摸鱼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。