基于价值的强化学习

sslala

已于 2023-02-17 15:17:10 修改

阅读量804

点赞数 2

分类专栏：强化学习文章标签：人工智能深度学习

于 2023-02-17 15:01:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ss49344/article/details/129087072

版权

强化学习通过Q值函数评估动作的价值，折扣回报考虑了未来的奖励。DQN是一种利用神经网络近似Q函数的方法，它通过TD算法进行训练，不断更新网络以优化决策。在每个时间步，DQN预测状态动作值，并选择最优动作。

摘要由CSDN通过智能技术生成

基于价值的强化学习，说白了，就是智能体采取了一个动作，这个动作的好坏用一个评价标准来评价它—Q动作值函数。
在后续的动作中，可以通过Q的计算了解到采取什么动作最好，从而达到指导智能体行动的目的。
强化学习中使用折扣回报来定义采取动作后得到的回报。

1. 折扣回报

定义： $U_t = R_t + \gamma R_{t+1} + \gamma ^2 R_{t+2} + \gamma ^3 R_{t+3} + …$

该回报表示在t时刻得到的即时奖励和 t+1, t+2 …后得到的折扣奖励。

该折扣回报就是用来评价采取一个行动是好坏的标准，回报越高，说明采取的行动越好。

特性： $U_t$ 回报是不确定的，因为它取决于状态和动作

$\pi (a | s)$ 策略函数
$P [S^{'} = s^{'} ∣ S = s, A = a] = p (s^{'} ∣ s, a)$ 状态转移概率

上述的策略和状态转移都是概率性的，所以折扣回报也是概率性的

2. action-value function 动作-值函数 $Q (s, a)$

可以反映在状态s下做动作a的好坏，其实也就是 $U_t$ 的期望：

动作值函数
$Q_\pi(s_t, a_t) = E(U_t | S_t = s_t, A_t = a_t)$

在状态s下，采取动作a的期望回报

最优动作值函数 $Q^*$
$Q^*(s_t, a_t) = \max_\pi Q_\pi (s_t, a_t)$

状态s下，最优动作a时的期望回报

3. DQN (Deep Q-Network)

其实就是用一个神经网络近似Q函数

求解 $Q^*$

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。