强化学习-马尔可夫决策过程

最新推荐文章于 2024-08-08 17:29:44 发布

chenzeyu940717

最新推荐文章于 2024-08-08 17:29:44 发布

阅读量859

点赞数

分类专栏：强化学习入门文章标签：概率论强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenzeyu940717/article/details/122236640

版权

本文深入探讨了强化学习中的马尔可夫决策过程（MDP），包括基本概念如智能体、环境、状态、动作、奖励和状态转移。介绍了状态空间、动作空间、奖励函数和状态转移函数，并讨论了动作和状态的随机性来源。此外，文章还详细阐述了回报与折扣回报的概念，以及价值函数的分类：动作价值函数、最优动作价值函数和状态价值函数。最后提到了实验环境OpenAI Gym在强化学习算法评估中的重要作用。

摘要由CSDN通过智能技术生成

目录

2.1 基本概念

2.2 随机性的来源

2.3 回报与折扣回报

2.3.2 折扣回报

2.3.3 回报中的随机性

2.3.4 有限期 MDP 和无限期 MDP

2.4 价值函数

2.4.1 动作价值函数

2.4.2 最优动作价值函数

2.4.3 状态价值函数

2.5 实验环境

2.1 基本概念

强化学习主要就是基本概念比较多，容易混淆，不容易记住，主要说一下一些基本的概念。

强化学习可以看做成一个马尔可夫决策过程（MDP），一个MDP通常由状态空间、动作空间、奖励函数、状态转移函数等组成。

下面以小例子来谈一下几个概念：

智能体：强化学习的主体被称为智能体，例如超级玛丽；

环境：环境指的是智能体交互的对象，可以抽象地理解为交互过程中的规则或机理。在超级玛丽的例子中，游戏程序就是环境；

状态：超级玛丽面对的环境就是此时的状态；

状态空间：状态空间是指所有可能存在状态的集合，记为 $S$ 。状态空间可以是有限的，也可以是无限的；可以是离散的，也可以是连续的。

动作：超级玛丽面对上述状态所采取的行动称为动作，可能是上、左和右；

动作空间：动作空间是指所有可能动作的集合记为 $A$ ， $A =$ {上，左，右}。

奖励：智能体在执行一个动作后，与环境交互，环境返回给智能体一个数值。奖励往往由我们自己来定义，奖励定义得好坏非常影响强化学习的结果。

状态转移：智能体由 $t$ 时刻的状态 $s$ 转移到下一个时刻 $t+1$ 的状态 $s^{^{'}}$ ；状态转移可能是随机的，而且强化学习通常假设状态转移是随机的，随机性来自于环境。

状态转移函数：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

chenzeyu940717 CSDN认证博客专家 CSDN认证企业博客

码龄5年

11: 原创

111万+: 周排名

91万+: 总排名

7156: 访问

: 等级

127: 积分

5: 粉丝

12: 获赞

5: 评论

14: 收藏

私信

关注

热门文章

分类专栏

强化学习入门 2篇

最新评论

pytorch实践08(刘二大人)
weixin_44084070: 你好，我的数据集出现这样得问题ValueError: could not convert string 'Pregnancies' to float32 at row 0, column 1.
pytorch实践08(刘二大人)
路路路明非: 大佬这一节的课后练习有代码嘛
pytorch实践04（刘二大人）
wsmbzd: print('predict (before training)',5,forward(5).item()) 请问这句代码里面数字5表示什么意思呢？
pytorch实践08(刘二大人)
油炸小可爱er: 这个图有什么意义吗
pytorch实践08(刘二大人)
且放白鹿青崖间.: 我的图和这个也差不多，可是这个图什么意思呀？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。