为什么经验回放需要采样的经验独立不相关

最新推荐文章于 2024-07-12 23:11:20 发布

qq_62011172

最新推荐文章于 2024-07-12 23:11:20 发布

阅读量29

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62011172/article/details/134562727

版权

1.引言：

首先我们要明白，这个问题其实根源在于机器学习中的iid原则：训练所使用的数据应该是独立同分布的。分布不分布的我们不管，关键就在于这个独立性，我们不遵循这个独立性要求会出现什么问题呢？

2.梯度方向一致：

数据短期内强相关会导致计算出来的梯度实际上方向是大体一致的。

梯度：如图f(x)的梯度该如何求，其实我们熟知的梯度是对未知量求，但这里其实更像是f(ω)x是系数。如图可以求出其梯度是一个向量。梯度方向：其实就是表示一个向量方向的方法，是一个绝对值为1的方向向量

我们说梯度方向一致，指的就是两个梯度的方向向量相等。

为什么会梯度方向一致：

我们假设Q值函数为f(x)如下，S状态向量长度为10，S = (x1,x2...x10)，a动作向量长度为2，a=(x1,x2)

计算其梯度方向向量：

我们设想另一个梯度方向向量如何定义它们的方向一致呢？

我们规定一个方向差：用于衡量两个梯度方向是否大致一致如下：

假如其中对应位置的元素如a与h大小差距超过某个值m，存在这种现象的位置不超过n个或某个比例，我们认为这两个梯度方向大致一致。

在我们举的例子中，很明显的是在紧挨着的两个经验中的两个状态之间，x1~x10是极为相同的，换句话说代入到梯度方向向量中使用我们定义的方向差可以判定二者方向应该是大致一致的。

推广而言：

这与上面我们举出的简单例子不同，梯度向量与参数也有一定关系。

总之时间顺序相关性强的两条经验(因为其s，ω差距极小)其计算的梯度方向大概率是大致一致的(其实这个得靠实验去证实，你所构造的神经网络，你所处理的环境，如果使用时间顺序相关性强的经验会不会呈现这种情况)。下面我们介绍假如出现这种情况带来的后果。

梯度方向一致带来的后果：震荡

借我们上个小段提出的方向差，我们完全可以围绕我们计算出来的实际梯度为中心以方向差为阈值，取出一个梯度集合出来，我们认为这个梯度集合内我们任选一条梯度对参数进行更新，其更新方向应该是大致一致的。何为更新方向：我们定义其为更新值的比例，如下虽然每个参数更新的值大小不一，但各更新值的比例应该是大致一致的。

利用第一个梯度进行更新，ω1更新值 η*grad 为3，ω2更新值η*grad 为6。

利用第二个梯度进行更新，ω1更新值 η*grad 为2，ω2更新值η*grad 为4。

3：6 = 2：4 = 1：2

对应我们取出的梯度集合应该后面有一类数据，这一类数据计算出来的梯度属于这个梯度集合，换句话说，只要是使用这个梯度集合内的梯度进行更新，这一类数据的预测值都会更为准确。

我们要求我们的模型应该具备泛化能力，对应而言，就是训练使用的一个梯度其所代表的一类数据的预测值也可以得到矫正，并且我们使用的梯度应该保证其覆盖范围足够大。

训练所使用的梯度我们应该尽量保证同属于一个梯度集合的梯度数量保持某一个平衡，既能够保证某一类数据的预测值得到充分矫正，也要防止其训练太多次出现过拟合，其它数据的预测值得不到矫正。

但是如果使用时间顺序相关性极强的经验进行训练就会出现这样一种后果：训练所使用的梯度同属于一个梯度集合的太多，覆盖范围太少，泛化能力极度下降，过拟合。

什么是震荡：训练中出现平均回合奖励忽高忽低的情况，并且差距超级大。

一个episode，其实也代表着一条时间顺序相关性极强的动作状态序列，其有可能出现在先前训练中覆盖的那条序列中，有可能不出现，出现了奖励高，没出现奖励低

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
为什么经验回放需要采样的经验独立不相关

我们规定一个方向差：用于衡量两个梯度方向是否大致一致如下：假如其中对应位置的元素如a与h大小差距超过某个值m，存在这种现象的位置不超过n个或某个比例，我们认为这两个梯度方向大致一致。在我们举的例子中，很明显的是在紧挨着的两个经验中的两个状态之间，x1~x10是极为相同的，换句话说代入到梯度方向向量中使用我们定义的方向差可以判定二者方向应该是大致一致的。
复制链接

扫一扫

qq_62011172 CSDN认证博客专家 CSDN认证企业博客

码龄3年

5: 原创

159万+: 周排名

18万+: 总排名

1190: 访问

: 等级

70: 积分

19: 粉丝

14: 获赞

5: 评论

20: 收藏

私信

关注

热门文章

最新评论

记录一次成功的vue调用高德地图
CSDN-Ada助手: 恭喜您成功记录了一次vue调用高德地图的经历！持续分享实践经验对他人学习和成长都是非常有益的。建议您在下一篇博客中可以深入分析一些实际应用场景，或者探讨一些技术细节，让读者能够更全面地了解您的经验和见解。期待您的更多精彩内容！
写一波最为标准的欧拉线行筛 Java
CSDN-Ada助手: 恭喜作者写出了如此精彩的博客！欧拉线行筛法在算法中确实是一个重要的话题，而且Java实现也是非常值得学习的。建议作者在下一篇博客中可以分享一些自己的算法思考过程或者是一些实际应用场景的案例，这样可以让读者更好地理解和应用。期待作者的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
散列表(算法图解笔记)
CSDN-Ada助手: 非常感谢您的分享！散列表的确是一种非常实用的数据结构，可以极大地提高程序的运行效率。不过，除了散列表本身，还有很多与其相关的知识和技能值得我们深入学习，比如哈希函数的设计、冲突解决方法的选择、散列算法的安全性等等。希望您能继续保持创作，分享更多有价值的内容。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
蓝桥杯备赛须知自用(1)
qq_62011172: 谢谢大哥
蓝桥杯备赛须知自用(1)
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。