参考资料:蘑菇书EasyRL
一、基本概念
历史是观测、动作、奖励的序列
状态是历史的函数
Q:状态和观测有什么关系?
A:状态是对世界的完整描述,不会隐藏世界的信息。观测是对状态的部分描述,可能会遗漏一些信息。环境可以分为完全可观测(马尔科夫决策过程)和部分可观测。
二、智能体的组成成分
智能体有如下三个组成成分:
2.1 策略
即π,分为随机性(stochastic policy)和确定性(deterministic)。
2.2 价值函数
下图的Gt指的是t时刻开始的折扣回报