Actor Critic Method(演员–评论家算法)¶
当代理在环境中执行操作和移动时,它将观察到的环境状态映射到两个可能的输出:
-
推荐动作:动作空间中每个动作的概率值。代理中负责此输出的部分称为actor(演员)。
-
未来预期回报:它预期在未来获得的所有回报的总和。负责此输出的代理部分是critic(评论家)。
演员和评论家学习执行他们的任务,这样演员推荐的动作就能获得最大的回报。
环境配置:
要记得pip install gym
三、实施演员-评论家网络¶
-
演员Actor:它将环境的状态作为输入,并为其动作空间中的每个动作返回一个概率值。
-
评论家Critic:它将的环境状态作为输入,并返回对未来总回报的估计。
报错可忽略。
四、训练模型
输出结果为:
Iteration: 0, Score: 26 Iteration: 10, Score: 42 Iteration: 20, Score: 29 Iteration: 30, Score: 30 Iteration: 40, Score: 30 Iteration: 50, Score: 16 Iteration: 60, Score: 42 Iteration: 70, Score: 81 Iteration: 80, Score: 91 Iteration: 90, Score: 181 Iteration: 100, Score: 199 Iteration: 110, Score: 146 Iteration: 120, Score: 92 Iteration: 130, Score: 67 Iteration: 140, Score: 57 Iteration: 150, Score: 111 Iteration: 160, Score: 125 Iteration: 170, Score: 71 Iteration: 180, Score: 77 Iteration: 190, Score: 107 Iteration: 200, Score: 73