强化学习中,学习系统在这里被称为智能体(agent),可以对环境进行观察、选择和执行动作,并获得奖励作为回报(负奖励是惩罚)。然后它必须自己学习哪个是最佳方法(称为策略,policy),以得到长久的最大奖励。策略决定了智能体在给定情况下应该采取的行动。
例如,许多机器人运行强化学习算法以学习如何行走。DeepMind 的 AlphaGo 也是强化学习的例子:它在 2016 年三月击败了世界围棋冠军李世石,并在2017 年五月,AlphaGo 又击败了世界排名第一的柯洁。它是通过分析数百万盘棋局学习制胜策略,然后自己和自己下棋。在比赛中机器学习是关闭的;AlphaGo 只是使用它学会的策略。
02-09