1.agent如何自动打游戏
①学习一种policy函数π————策略学习
每观测到一个状态st,
就把st作为π函数的输入,π函数会输出每一个动作的概率,用这些概率做一个随机抽样得到at,
最后agent执行这个动作at
![](https://img-blog.csdnimg.cn/img_convert/5399bd7210c96defbb5eeb11fa3f18cd.png)
②学习最优动作价值函数Q*————价值学习
每观测到一个状态st,
把st作为Q*函数的输入,让Q*函数对每一个动作都做一个评价,这样就知道向左向右向上每一个动作的Q值,选择Q值最大的那个动作
①学习一种policy函数π————策略学习
每观测到一个状态st,
就把st作为π函数的输入,π函数会输出每一个动作的概率,用这些概率做一个随机抽样得到at,
最后agent执行这个动作at
②学习最优动作价值函数Q*————价值学习
每观测到一个状态st,
把st作为Q*函数的输入,让Q*函数对每一个动作都做一个评价,这样就知道向左向右向上每一个动作的Q值,选择Q值最大的那个动作