目标函数
价值学习的目标是找到一个估计函数,能够正确地估计当前状态下采取某一个行动能够带来的价值。当找到这个估计函数时,我们就可以用来进行决策。比如说,在围棋游戏中,有一个估计函数,输入当前棋盘上已经下的棋子的状态,同时输入下一步想要落子的地方,估计函数就会给出当前在这里落子,未来累计能够获得的价值。显然,未来累计的价值越大,最终获胜的概率就会越高,所以有了这一个估值函数,我们就会倾向于落子在未来累计价值的最大的地方。
所以价值学习学的就是当前步骤对未来全局的价值判断。当然,的不确定是很大的,未来的时间越远,我们越难估计准确。而且环境状态转移和智能体决策都具有随机性,所以未来的不确定性是必然存在的。越是复杂的系统越是如此,比如说天气预报,只能预报近期的天气,遥远时间点的天气预报时间点的准确性已经不具备实际意义。
- 未来累计回报
代表某一时刻做出某一行为所获得的实际回报,由于未来的不确性较大,所以前面会乘以一个和有关的衰减系数,,时间点越遥远的回报权重越小。
- 行为价值函数
未来的实际回报在当期是无法预知的,但是我们可以对未来的回报进行预估。
和当前的状态和下一步骤的行为有关,还和