Agent:智能体
策略网络(Policy Network):
直接预测在某个环境状态下应该采取的Action。 适合Action种类非常多或者有连续取值的Action的环境。(学习的不是某个action对应的期望价值Q,而是直接学习在当前环境应该采取的策略,可以直接产生最终的策略)
价值/估值网络(Value Network):
预测某个环境状态下所有Action的期望价值(Q值),之后可以通过选择Q值最高的Action执行策略。 适合仅有少量离散取值的Action的环境。
Agent:智能体
策略网络(Policy Network):
直接预测在某个环境状态下应该采取的Action。 适合Action种类非常多或者有连续取值的Action的环境。(学习的不是某个action对应的期望价值Q,而是直接学习在当前环境应该采取的策略,可以直接产生最终的策略)
价值/估值网络(Value Network):
预测某个环境状态下所有Action的期望价值(Q值),之后可以通过选择Q值最高的Action执行策略。 适合仅有少量离散取值的Action的环境。