《强化学习》学习笔记2——价值学习

最新推荐文章于 2024-07-15 19:08:53 发布

但为月华明

最新推荐文章于 2024-07-15 19:08:53 发布

阅读量1.7k

点赞数 19

文章标签：学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39826457/article/details/126685508

版权

本文介绍了强化学习中的价值学习，旨在找到评估当前状态行动价值的估计函数，以指导决策。深入讨论了DQN算法，包括其决策过程和训练方法，特别是利用时域差分学习（TD算法）进行阶段性的误差修正以提高训练效率。

摘要由CSDN通过智能技术生成

目标函数

价值学习的目标是找到一个估计函数，能够正确地估计当前状态下采取某一个行动能够带来的价值。当找到这个估计函数时，我们就可以用来进行决策。比如说，在围棋游戏中，有一个估计函数，输入当前棋盘上已经下的棋子的状态，同时输入下一步想要落子的地方，估计函数就会给出当前在这里落子，未来累计能够获得的价值。显然，未来累计的价值越大，最终获胜的概率就会越高，所以有了这一个估值函数，我们就会倾向于落子在未来累计价值的最大的地方。

所以价值学习学的就是当前步骤对未来全局的价值判断。当然，的不确定是很大的，未来的时间越远，我们越难估计准确。而且环境状态转移和智能体决策都具有随机性，所以未来的不确定性是必然存在的。越是复杂的系统越是如此，比如说天气预报，只能预报近期的天气，遥远时间点的天气预报时间点的准确性已经不具备实际意义。

未来累计回报

$U_{t}=R_{t} + \gamma R_{t+1}+\gamma^{2}R_{t+2}+\gamma^{3}R_{t+3}+...$

$R_{t}$ 代表某一时刻做出某一行为所获得的实际回报，由于未来的不确性较大，所以前面会乘以一个和 $\gamma$ 有关的衰减系数， $\gamma\in(0,1)$ ，时间点越遥远的回报权重越小。

行为价值函数

未来的实际回报在当期是无法预知的，但是我们可以对未来的回报进行预估。

$Q_{\pi}=E[Ut|S_{t}=s_{t},A_{t}=a_{t}]$

$Q_{\pi}$ 和当前的状态和下一步骤的行为有关，还和

最低0.47元/天解锁文章

但为月华明

关注

19
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。