强化学习学习笔记（1）马尔可夫决策过程

最新推荐文章于 2023-02-10 11:12:38 发布

wust_pang

最新推荐文章于 2023-02-10 11:12:38 发布

阅读量561

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48007757/article/details/111033917

版权

本文介绍了强化学习的基础概念，重点讲解了马尔可夫性、马尔可夫过程以及马尔可夫决策过程。马尔可夫性指系统下一个状态仅与当前状态有关，而马尔可夫决策过程则加入了动作和回报，用于描述智能体如何在环境中学习最优策略。文章详细阐述了策略、累计回报、状态函数值、状态行为值函数和最优值函数的概念。

摘要由CSDN通过智能技术生成

强化学习基础---马尔可夫决策

强化学习算法利⽤产⽣的数据修改⾃⾝的动作策略，再与环境交互，产⽣新的数据，并利⽤新的数据进⼀步改善⾃⾝的⾏为，经过数次迭代学习后，智能体能最终学到完成相应任务的最优动作（最优策略）。强化学习的学习过程是动态的、不断交互的过程，所需要的数据也是通过与环境不断交互所产⽣的。

马尔可夫性：

所谓⻢尔科夫性是指系统的下⼀个状态st+1仅与当前状态st 有关，⽽与以前的状态⽆关。

定义：状态st 是⻢尔科夫的，当且仅当P[st+1 |st ]=P[st+1 |s1 ，…，st ]。定义中可以看到，当前状态st 其实是蕴含了所有相关的历史信息s1 ， …，st ，⼀旦当前状态已知，历史信息将会被抛弃。（P[st+1|st]是指的在状态st情况下转移到状态st+1的概率）

马尔可夫过程：

⻢尔科夫过程是⼀个⼆元组（S，P），且满⾜：S是有限状态集合，P是状态转移概率。状态转移概率矩阵为：

例如：

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。