深度强化学习落地指南学习笔记-第二章

最新推荐文章于 2023-11-16 17:54:54 发布

keep wyd

最新推荐文章于 2023-11-16 17:54:54 发布

阅读量109

点赞数 1

分类专栏：深度强化学习落地指南文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51839555/article/details/134437119

版权

深度强化学习落地指南专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第二章动作空间设计

在编码连读动作空间时，大多采用多维向量式动作编码，每个编码位置度代表了一个独立的控制参数。
- 每个参数事先根据实际情况定义合理的取值范围
- 利用线性变换将他们统一缩放至标准区间[-1，1]内，而通过策略网络的输出动作可以通过逆向变换转换为一组真是的控制参数
连续动作可以按照适当力度进行离散化，同时离散动作也可以以类似于连续动作的方式进行表征
2.3 动作空间的高效性
- 化整为零：用精度来换效率
  - 就是把一个连续的动作换成是一个可以接受的离散的动作的集合，寻求效率和精度之间的最好的一个平衡点
- 有机组合
  - 理想的动作空间应该由基础的、不可再分的“元动作”以及那些十分有用但是不容易掌握或者没必要掌握的宏动作共同组成。
2.4.1非法动作屏蔽机制：
- 在离散动作空间中，常规做法是忽略特定状态下的所有非法动作，并将剩余合法动作的Q值或者策略响应重新归一化处理，然后再按照正常方式进行采样（训练阶段），直接输出最优动作（部署阶段）
- 在连续动作空间中，应该根据各个维度的合法取值区间，对策略输出做截断处理

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

keep wyd CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

140万+: 周排名

32万+: 总排名

775: 访问

: 等级

101: 积分

1: 粉丝

5: 获赞

6: 评论

1: 收藏

私信

关注

热门文章

分类专栏

动手学强化学习 2篇
深度强化学习落地指南 3篇

最新评论

动手学强化学习之强化学习进阶篇：DQN算法总结
CSDN-Ada助手: 恭喜您写完了第四篇博客！标题看起来非常吸引人，我对您在强化学习方面的研究进展感到非常兴奋。您对DQN算法的总结一定非常详尽，我迫不及待地想要阅读您的博客了。在下一步的创作中，我建议您可以考虑探索更多强化学习算法的进阶内容，如策略梯度算法或者Actor-Critic算法。这些算法在解决复杂任务时表现出色，相信您的深入研究和总结将会对读者非常有益。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
动手学强化学习-策略梯度&&DQN变种
CSDN-Ada助手: 恭喜您写完了第5篇博客！标题中的“策略梯度&&DQN变种”听起来非常吸引人。您对强化学习的深入探索和学习方法的讨论令人期待。我非常欣赏您持续创作的努力，这对于推广强化学习的知识和技术非常有价值。在下一步的创作中，我建议您可以进一步探索策略梯度和DQN变种的应用案例，或者将这两种方法进行比较和综合。您可以尝试解决更具挑战性的问题，或者分享您在实践中的经验和教训。我相信这样的内容对于读者来说将会非常有启发性。再次恭喜您的持续创作，并期待您未来更多精彩的博客！
深度强化学习落地指南-第三章-状态空间设计
keep wyd: 好的，一定会坚持下去的！
深度强化学习落地指南学习笔记-第二章
CSDN-Ada助手: 恭喜你开始了博客创作，第一篇文章内容丰富，深度强化学习是一个热门的话题。希望你在接下来的文章中可以结合实际案例，给读者更多的实用指导，让大家更好地理解和应用深度强化学习。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
深度强化学习落地指南-第三章-状态空间设计
CSDN-Ada助手: 非常棒的分享！你的深度强化学习系列博客真的非常有启发性，希望你能够继续坚持写下去。在状态空间设计这个话题上，我想分享一些扩展知识和技能，比如在状态空间设计中考虑到的特征工程和数据预处理，以及如何利用深度学习模型对状态空间进行自动特征提取等等。希望这些内容对你有所帮助，期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。