基本概念
状态:当前智能体所处的一个状态。
行为:智能体看清了当前的状态之后 要进行的一个下一步的操作,AlphaGo的落子的操作我们称之为行为,往哪个方向走(上下左右)。
奖励:每一步行为之后都会有一个结果,对不同的结果都会有一个奖励的值,如果你学习了我给你一个奖励,如果你打球了(没学习)我就给你一个惩罚。每一步操作都会有一个衡量的指标,来指明这一步操作是对还是不对。
策略:首先在当前的一个环境下,已经看清楚了现在的状态,然后你会有一个目标,对AlphaGo来说最终你想赢。我们会先制定一系列的策略,比如对现在这个状态,我按照什么样的一系列的动作组合,能使得我最终能获胜,得到最大的奖励值。
先观察看下当前状态如何,在当前状态下我先选择一个行动,不合适就继续尝试,每次行动都尝试不同的方向,总会试出一个方向会使得最终的结果奖励值最大。即哪一步走法会使得最终的奖励值最大,那我就走这样一步。
马尔科夫决策过程
未来回报的期望就表示着:在当前状态下,可以得到最终的结果或者说平均结果是什么样的,它是一个期望值。
bellman方程
动作空间和状态空间都是有限的才能去计算。
Vπ(s):当前状态获得的期望。