游戏向来都是开发者喜欢用来进行深度强化学习、训练人工智能的工具,从棋类到复杂的战略游戏都有。不过 Google 最近采用的学习方式,却是使用经典的乒乓游戏 Pong 来训练人工智能。
Google 使用 Pong 和 Freeway 两个简单的游戏,在 2 小时游戏时间的实验中,采用 SimPLe 策略的代理成功达到最高分,虽然最终表现仍未达到标准的强化学习方式,但训练效率可提升 1 倍,未来也能进一步提升准确度,以节省人工智能的训练所需时间,以及模拟互动的成本。
游戏向来都是开发者喜欢用来进行深度强化学习、训练人工智能的工具,从棋类到复杂的战略游戏都有。不过 Google 最近采用的学习方式,却是使用经典的乒乓游戏 Pong 来训练人工智能。
Google 使用 Pong 和 Freeway 两个简单的游戏,在 2 小时游戏时间的实验中,采用 SimPLe 策略的代理成功达到最高分,虽然最终表现仍未达到标准的强化学习方式,但训练效率可提升 1 倍,未来也能进一步提升准确度,以节省人工智能的训练所需时间,以及模拟互动的成本。