1. 策略网络(Policy Network):
策略网络是一个神经网络,用于建模智能体的策略,即在给定状态下选择动作的概率分布。
-
是在策略网络下,在状态
下选择动作
的概率,其中
是策略网络的参数。
-
表示策略网络的输出概率。
2. 价值函数网络(Value Function Network):
价值函数网络是一个神经网络,用于估计在给定状态或采取某个动作后能够获得的期望累积回报。
- 动作价值函数(Action Value Function): 估计在给定状态
下采取某个动作后能够获得的期望累积回报。
- 状态价值函数(State Value Function): 估计在给定状态
下按照某个策略采取动作所获得的期望累积回报。
总结:
- 策略网络 指导智能体的决策,提供在给定状态下选择动作的概率。
- 价值函数网络 评估状态或动作的长期价值,帮助智能体学习并优化其策略。