异策略深度强化学习中的经验回放研究综述

renhongxia1

于 2023-12-22 10:22:50 发布

阅读量63

点赞数

分类专栏：人工智能文章标签：人工智能

原文链接：http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220648

版权

人工智能专栏收录该内容

77 篇文章 10 订阅

订阅专栏

源自：自动化学报

作者：胡子剑, 高晓光, 万开方, 张乐天, 汪强龙

“人工智能技术与咨询” 发布

摘要

作为一种不需要事先获得训练数据的机器学习方法, 强化学习(Reinforcement learning, RL)在智能体与环境的不断交互过程中寻找最优策略, 是解决序贯决策问题的一种重要方法. 通过与深度学习(Deep learning, DL)结合, 深度强化学习(Deep reinforcement learning, DRL)同时具备了强大的感知和决策能力, 被广泛应用于多个领域来解决复杂的决策问题. 异策略强化学习通过将交互经验进行存储和回放, 将探索和利用分离开来, 更易寻找到全局最优解. 如何对经验进行合理高效的利用是提升异策略强化学习方法效率的关键. 首先对强化学习的基本理论进行介绍; 随后对同策略和异策略强化学习算法进行简要介绍; 接着介绍经验回放(Experience replay, ER)问题的两种主流解决方案, 包括经验利用和经验增广; 最后对相关的研究工作进行总结和展望.

关键词

深度强化学习 / 异策略 / 经验回放 / 人工智能

1 深度强化学习理论基础

2 经验回放机制

3 总结与展望

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨，并不意味着支持其观点或证实其内容的真实性。版权归原作者所有，如转载稿涉及版权等问题，请立即联系我们删除。

“人工智能技术与咨询” 发布

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
异策略深度强化学习中的经验回放研究综述

随后对同策略和异策略强化学习算法进行简要介绍;接着介绍经验回放(Experience replay, ER)问题的两种主流解决方案, 包括经验利用和经验增广;公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨，并不意味着支持其观点或证实其内容的真实性。版权归原作者所有，如转载稿涉及版权等问题，请立即联系我们删除。作者：胡子剑, 高晓光, 万开方, 张乐天, 汪强龙。深度强化学习 / 异策略 / 经验回放 / 人工智能。“人工智能技术与咨询” 发布。“人工智能技术与咨询” 发布。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。