《强化学习》学习笔记2——价值学习

本文介绍了强化学习中的价值学习,旨在找到评估当前状态行动价值的估计函数,以指导决策。深入讨论了DQN算法,包括其决策过程和训练方法,特别是利用时域差分学习(TD算法)进行阶段性的误差修正以提高训练效率。
摘要由CSDN通过智能技术生成

目标函数

        价值学习的目标是找到一个估计函数,能够正确地估计当前状态下采取某一个行动能够带来的价值。当找到这个估计函数时,我们就可以用来进行决策。比如说,在围棋游戏中,有一个估计函数,输入当前棋盘上已经下的棋子的状态,同时输入下一步想要落子的地方,估计函数就会给出当前在这里落子,未来累计能够获得的价值。显然,未来累计的价值越大,最终获胜的概率就会越高,所以有了这一个估值函数,我们就会倾向于落子在未来累计价值的最大的地方。

        所以价值学习学的就是当前步骤对未来全局的价值判断。当然,的不确定是很大的,未来的时间越远,我们越难估计准确。而且环境状态转移和智能体决策都具有随机性,所以未来的不确定性是必然存在的。越是复杂的系统越是如此,比如说天气预报,只能预报近期的天气,遥远时间点的天气预报时间点的准确性已经不具备实际意义。

  •  未来累计回报

        U_{t}=R_{t} + \gamma R_{t+1}+\gamma^{2}R_{t+2}+\gamma^{3}R_{t+3}+...

R_{t}代表某一时刻做出某一行为所获得的实际回报,由于未来的不确性较大,所以前面会乘以一个和\gamma有关的衰减系数,\gamma\in(0,1),时间点越遥远的回报权重越小。

  • 行为价值函数

        未来的实际回报在当期是无法预知的,但是我们可以对未来的回报进行预估。

        Q_{\pi}=E[Ut|S_{t}=s_{t},A_{t}=a_{t}]

Q_{\pi}和当前的状态和下一步骤的行为有关,还和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值