强化学习过程笔记（一） ReinforcementLearning 详解价值函数，剖析公式

最新推荐文章于 2023-12-18 15:45:26 发布

Joey Jo

最新推荐文章于 2023-12-18 15:45:26 发布

阅读量894

点赞数 1

文章标签：强化学习机器学习

本文链接：https://blog.csdn.net/qq_37576300/article/details/120706724

版权

本文介绍了强化学习的基本概念，包括Policy、Value Function和Model。Value Function阐述了状态价值和Q函数，解释了折扣因子的作用。Policy分为随机性和确定性策略。Model由概率和奖励函数组成，描述了状态转移的可能性。文章还讨论了强化学习的分类，如基于策略、基于价值的RL，以及Actor-Critic agent。

摘要由CSDN通过智能技术生成

本系列博客参照学习笔记 easy-rl by DataWhale，标题中的后半部分对应笔记中每章节。

附上链接：https://datawhalechina.github.io/easy-rl/x

本系列博客配合上笔记学习效果更佳，内容主要包含一些重要概念和笔者自己学习中对所遇到的难点疑点的思考。

强化学习的概念示意图：

对于一个强化学习agent，他可能由一个或多个的如下部分组成：

Policy function	agent会用这个函数来选取下一步
value function	对未来奖励的预测，评估状态的好坏。
model	模型代表了agent对这个环境的状态进行了理解，决定了这个世界是如何进行的

Policy

Policy是agent的行为模型，它决定了agent的行为，它其实是一个函数，把输入的状态变为行为。

有以下两种：

随机性策略(stochastic policy)

确定性策略(deterministic policy)

Value Function——对价值函数的理解

最低0.47元/天解锁文章

Joey Jo

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习过程笔记（一） ReinforcementLearning 详解价值函数，剖析公式

本系列博客参照学习笔记easy-rl by DataWhale，标题中的后半部分对应笔记中每章节。附上链接：https://datawhalechina.github.io/easy-rl/x本系列博客配合上笔记学习效果更佳，内容主要包含一些重要概念和笔者自己学习中对所遇到的难点疑点的思考。强化学习的概念示意图：对于一个强化学习agent，他可能由一个或多个的如下部分组成：Policy function agent会用这个函数来选取下一步 value fun...
复制链接

扫一扫