目录
另一种办法是学习optimal action value function,最优动作价值函数Q*。
继续拿超级玛丽举例子
如何让强化学习自动训练超级玛丽?
假设我们训练AI玩玩超级玛丽游戏。
我们的目标是操作Mario多吃金币,避开敌人往前走,打赢每一关游戏。
我们想写个程序让AI来控制agent,我们该怎么做呢?
目录
另一种办法是学习optimal action value function,最优动作价值函数Q*。
继续拿超级玛丽举例子
假设我们训练AI玩玩超级玛丽游戏。
我们的目标是操作Mario多吃金币,避开敌人往前走,打赢每一关游戏。
我们想写个程序让AI来控制agent,我们该怎么做呢?