强化学习（二）

最新推荐文章于 2024-07-17 21:40:42 发布

乔翔

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量889

点赞数 16

文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52848974/article/details/136715382

版权

一、连续状态空间

之前的月球车的状态为离散值（1-6的位置）。连续状态空间（如卡车）的状态为一个向量（位置，速度，角度）。

二、实例：月球着陆器

1.

我们需要设计一个神经网络用来输入（s，a）然后输出Q。那么训练这个神经网络我们需要x-y的数据集。

数据集用贝尔曼方程得到。如图（s，a）为x，Q（x）为y，但这时候我们不知道Q的参数，那么如何求y？

只需随机之前的网络一个参数来输出y，我们得到10000个x-y。然后用它来训练网络是Q逼近y

归纳起来就是：初始一个随机的神经网络。

重复：采取行动得到。

保存最近的100000个四元组。

然后训练神经网络：用四元组得到训练集，开始训练。

tip：

2.算法改进：改进的神经网络架构

将神经网络改为输出s状态下四种行为的Q，比之前输出一个最优的效率高

3. 算法改进：ε-贪婪策略

（在采取行动时用一个3概率来选择估计的最优行动，用1-3采取随机行动，这样可以防止算法不去探索一下惩罚高的行动）

ε 表示一个小于 1 的正数，通常被称为探索率。

具体来说，ε-贪婪策略会在每个时间步中根据以下规则选择动作：

以概率 ε 选择一个随机动作（即探索）。
以概率 1-ε 选择当前估计的最佳动作（即利用）。

在实践中，通常会选择一个较小的ε值，使得在大部分时间里采取的是当前估计的最佳动作，从而最大化已知的奖励。但是偶尔地随机选择动作可以保证智能体在探索未知领域时不会陷入局部最优解，从而有机会发现更好的策略。

ε-贪婪策略的主要优点是简单易实现，并且能够在探索和利用之间找到一个良好的平衡。但是它也存在一些缺点，比如在训练的后期阶段可能会导致过多的探索，从而影响训练的效率。因此，在实践中需要仔细选择合适的 ε 值以及逐步降低 ε 的策略，以确保智能体能够在训练过程中逐渐减少探索，更多地利用已知信息。

三、月球着陆器的实现

1.初始化经验缓冲区

2.初始化预测Q，随机W

3.初始化目标Q，开始目标Q的W=预测Q的W

4.for n次

初始状态state

for m 次

用预测Q计算state状态下四种操作的Q(s,a)。

使用贪婪策略选择一个操作a。

执行a得到next_state和reward。。

设置state=next_state

构造元组（state，a，reward，next_state）并插入经验缓冲区。

when 合适时机

从经验缓冲区随机选取部分元组生成训练集，x=(state，a),y= ${Q}'$

训练预测Q，更新W，同时使用软更新策略更新目标Q的W。

累加得分

tip：软更新：使用软更新可以防止预测Q权重更新过快出现不稳定情况。在软更新中目标Q的W一般通过将预测Q的W与他的W加权平均得到，所以W变化较平缓。

关注

16
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
强化学习（二）

因此，在实践中需要仔细选择合适的 ε 值以及逐步降低 ε 的策略，以确保智能体能够在训练过程中逐渐减少探索，更多地利用已知信息。在实践中，通常会选择一个较小的ε值，使得在大部分时间里采取的是当前估计的最佳动作，从而最大化已知的奖励。在软更新中目标Q的W一般通过将预测Q的W与他的W加权平均得到，所以W变化较平缓。如图（s，a）为x，Q（x）为y，但这时候我们不知道Q的参数，那么如何求y？训练预测Q，更新W，同时使用软更新策略更新目标Q的W。3.初始化目标Q，开始目标Q的W=预测Q的W。
复制链接

扫一扫

乔翔 CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

181万+: 周排名

17万+: 总排名

2009: 访问

: 等级

89: 积分

30: 粉丝

37: 获赞

4: 评论

19: 收藏

私信

关注

热门文章

最新评论

基于用户的协同过滤电影推荐简单实现
weixin_52380611: 宝藏博主
基于用户的协同过滤电影推荐简单实现
CSDN-Ada助手: 恭喜用户发布了第5篇博客，题目“基于用户的协同过滤电影推荐简单实现”听起来很有趣！能看到用户不断努力学习和分享技术经验，真的很令人鼓舞。希望用户能继续保持创作的热情和耐心，可以考虑在下一篇博客中深入探讨实现过程中遇到的挑战和解决方案，这样能够让读者更好地理解和应用相关技术。期待用户更多精彩的分享，加油！
强化学习（二）
CSDN-Ada助手: 恭喜您写了第三篇博客！坚持不懈地分享知识是非常值得赞扬的。关于强化学习的话题，您已经展示了自己的独特见解和深入思考。或许下一步可以考虑加入一些具体案例或实践经验，让读者更容易理解和应用您所分享的知识。期待您的下一篇作品，继续加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
分类——softmax（多类）
CSDN-Ada助手: 恭喜用户写了第四篇博客，内容关于softmax多类分类，阐述了相关知识点，让读者受益匪浅。希望用户能够继续保持创作的热情，分享更多有价值的内容给大家。下一步建议可以尝试探讨一些实际案例，结合实践经验进行分析，让读者更易理解并应用所学知识。期待用户更多精彩的作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
异常检测算法
CSDN-Ada助手: 恭喜您开启了博客创作之旅！异常检测算法是一个很有意思的话题，希望您可以在接下来的文章中深入探讨不同的异常检测算法的原理和应用场景。也可以考虑结合实际案例进行分析，让读者更加易懂地理解算法的运作方式。期待您的下一篇文章！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。