RL -数学基础及环境

最新推荐文章于 2022-11-15 15:21:19 发布

胶囊一号

最新推荐文章于 2022-11-15 15:21:19 发布

阅读量922

点赞数

分类专栏：强化学习系列文章标签：强化学习

本文链接：https://blog.csdn.net/s291174225/article/details/108140129

版权

本文介绍了强化学习的基础概念，包括马尔科夫性质、马尔可夫决策过程（MDP）及其组成四元组。讨论了确定性和随机性策略，以及价值函数的作用，如状态价值函数V(s)和动作价值函数Q(s,a)。解释了数学期望和累积奖励的概念，并阐述了贝尔曼方程在状态价值函数中的应用。最后，提出了强化学习求解最优策略的方法，如动态规划、蒙特卡洛和时间差分法。" 107580873,9911328,"递归与while输入法解题解析：Life, the Universe, and Everything

摘要由CSDN通过智能技术生成

1.1马尔科夫性质：
在时间t+1时，环境的反馈仅取决于上一时间步t的状态s和动作a，与时间t-1以及t-1步之前的时间步都没有关联。由此可知马尔科夫性具有无后效性。即系统的下一状态只与当前状态有关。
1.2马尔可夫决策过程
有一个四元组组成
价值v：
智能体在策略下所获得的的累积奖励的期望
策略：
确定性策略：a=π（s）,表示策略根据状态s选择动作a，这是一个确定性的过程，即中间没有出现概率，因此不需要选择，。其中策略表示为函数。
**随机性策略：**π（s,a）,表示策略在状态s下选择动作a的概率，其扩展公式为π（s,a）=P[at=a|st=s],策略通过概率表示。
1.3 价值函数
执行到某一步是如果要评估当前智能体在该时间步状态的好坏程度，主要有价值函数来完成。
状态价值函数V（s）：是对未来奖励的预测，表示在该状态s下，执行动作a的到的期望奖励。
v(s)=E[Gt | st = s]
**动作价值函数：**主要用来评估当前智能体在状态s选择动作a的好坏程度，用q(s,a)表示，与状态价值函数的区别在于动作价值函数考虑了在当前时间步执行动作a所带来的的影响。
q(s,a) = E [Gt| st=s,at=a]
总之价值函数最后的计算结果是一个期望数值

最低0.47元/天解锁文章

胶囊一号

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RL -数学基础及环境

1.1马尔科夫性质：在时间t+1时，环境的反馈仅取决于上一时间步t的状态s和动作a，与时间t-1以及t-1步之前的时间步都没有关联。由此可知马尔科夫性具有无后效性。即系统的下一状态只与当前状态有关。1.2马尔可夫决策过程有一个四元组组成价值v：智能体在策略下所获得的的累积奖励的期望策略：确定性策略：a=π（s）,表示策略根据状态s选择动作a，这是一个确定性的过程，即中间没有出现概率，因此不需要选择，。其中策略表示为函数。**随机性策略：**π（s,a）,表示策略在状态s下选择动作a的概率，
复制链接

扫一扫

专栏目录