【强化学习】强化学习致命三要素deadly triad

原创已于 2023-04-10 09:41:21 修改

· 1.5k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-04-06 14:46:43 首次发布

强化学习同时被 2 个专栏收录

6 篇文章

订阅专栏

5 篇文章

订阅专栏

强化学习中，函数近似可能导致估计误差，自举造成不一致性，离轨策略训练增加方差，这些共同导致学习过程的不稳定性。当这三者结合，系统可能存在收敛性问题，被称为死亡三角。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习的致命三要素是：

函数近似：利用不同的近似器（如人工神经网络）替代表格型的方法;
自举：通过估计的值来更新估计（如动态规划和TD）;
离轨策略训练：用来进行训练的状态转移分布不是由目标策略产生的。比如动态规划中所做的，遍历整个状态空间并均匀地更新所有状态而不理会目标策略。

如果包含这三个要素，很有可能不稳定性就难以避免，如果只出现两个要素，那么不稳定性就是有可能避免的。

为什么包含这三个要素就不稳定？

这个问题原因没有一个确定的答案，但是有一些可能的解释。

函数近似会引入误差，导致估计值偏离真实值，从而影响学习的效果。
自举会使得估计值依赖于其他的估计值，从而产生不一致性和震荡。
离策略训练会使得目标策略和行为策略不匹配，从而导致重要性采样比例的变化和方差的增大。

当这三个因素同时出现时，系统就存在收敛性问题，我们称之为死亡三角。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。