强化学习的一些核心概念

最新推荐文章于 2024-07-09 16:15:46 发布

你会知道我是谁

最新推荐文章于 2024-07-09 16:15:46 发布

阅读量356

点赞数

分类专栏：强化学习文章标签：机器学习人工智能强化学习

本文链接：https://blog.csdn.net/qq_34619572/article/details/106188827

版权

强化学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

#背景
目前，解决RL问题的主要方法有两种：基于值函数的RL方法和基于策略搜索的RL方法。还有一种混合方法，称为actor-critic方法，它既采用了值函数的功能，又汲取了策略搜索的方法。

1.值函数
估计值函数或价值函数：即估计智能体在给定状态（状态-动作）下的好坏程度的函数；对于有多好是由预期回报来表现的，同时也要注意到我们想要得到的预期回报取决于它所采取的行动/动作，因此要根据特定的策略（生成动作）来定义值函数。
状态值函数：就是在状态为s时的预期奖励期望；动作（状态-动作）值函数就是在状态s时采取的动作a时的预期奖励回报。

蒙特卡罗方法：值函数V(s)、Q(s,a）可以根据经验来估计。比如智能体遵循策略时，并且对每个状态都保持状态之后实际回报的平均值，那么当遇到状态数目趋于无穷时，此平均值将收敛到状态V(s);如果对于状态中采取的每个动作都保持单独的平均值，那么这些平均值将类似地收敛到动作Q(s,a), 我们称这种估计方法为蒙特卡罗方法
2.动态规划（）

3.时间（序）差分（Temporal-Difference）
TD学习是蒙特卡罗思想与DP思想的结合。
蒙特卡罗算法需要一直等到访问完成，然后使用返回信息作为V(s), 而TD算法只需要等到下一个步骤即可，即需要（st，at，rt，st+1）；
与蒙特卡罗方法类似，TD方法可以从原始经验中学习，而无须环境动态模型；
与DP一样，TD方法部分基于其他学习的估计来更新其估计，无须等待最终结果来进行引导。

4.策略梯度
input：the observation of machine represented as a vector or a matrix
output:each action corresponds to a neuron in output layer

5.Actor-Critic 方法
策略结构被称为actor，用于选择动作；估计值函数被称为critic，它用来评估actor所做的动作，它的唯一输出是TD误差，推动了actor和critic的所有学习。

你会知道我是谁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习的一些核心概念

#背景目前，解决RL问题的主要方法有两种：基于值函数的RL方法和基于策略搜索的RL方法。还有一种混合方法，称为actor-critic方法，它既采用了值函数的功能，又汲取了策略搜索的方法。1.值函数估计值函数或价值函数：即估计智能体在给定状态（状态-动作）下的好坏程度的函数；对于有多好是由预期回报来表现的，同时也要注意到我们想要得到的预期回报取决于它所采取的行动/动作，因此要根据特定的策略（生成动作）来定义值函数。状态值函数：就是在状态为s时的预期奖励期望；动作（状态-动作）值函数就是在状态s时采取
复制链接

扫一扫