本系列博客参照学习笔记 easy-rl by DataWhale,标题中的后半部分对应笔记中每章节。
附上链接:https://datawhalechina.github.io/easy-rl/x
本系列博客配合上笔记学习效果更佳,内容主要包含一些重要概念和笔者自己学习中对所遇到的难点疑点的思考。
强化学习的概念示意图:
对于一个强化学习agent,他可能由一个或多个的如下部分组成:
Policy function | agent会用这个函数来选取下一步 |
value function | 对未来奖励的预测,评估状态的好坏。 |
model | 模型代表了agent对这个环境的状态进行了理解,决定了这个世界是如何进行的 |
Policy
Policy是agent的行为模型,它决定了agent的行为,它其实是一个函数,把输入的状态变为行为。
有以下两种:
随机性策略(stochastic policy)
确定性策略(deterministic policy)
Value Function——对价值函数的理解
对此公式的说明:
其中