多智能体强化学习理论及其应用综述

renhongxia1

于 2025-02-14 17:37:27 发布

阅读量523

点赞数 5

文章标签：人工智能算法 Deepseek 大模型 AI大模型学习强化学习深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/renhongxia1/article/details/145638644

版权

源自：模式识别与人工智能

作者：陈卓然, 刘泽阳, 万里鹏, 陈星宇, 朱雅萌, 王成泽, 程翔, 张亚, 张森林, 王晓辉, 兰旭光

摘要

强化学习是一种用于解决序列决策问题的常用机器学习方法，核心思想是让智能体与环境交互获得反馈，从而逐步学会最佳策略。随着实际应用对计算能力和数据规模的要求不断提高，单体智能转向群体智能逐渐成为人工智能未来发展的必然趋势，这为强化学习带来诸多新的机遇和挑战。文中首先从深度多智能体强化学习概念着手，针对目前的理论困境，如可拓展性较差、效用分配较难、探索-利用困境、环境非稳态、信息部分可观测等问题，进行提炼和分析。然后，详细阐述目前学者对于这些问题提出的多种解决方法及其优缺点。最后，介绍当前多智能体强化学习的典型训练学习环境和智慧城市建设、游戏、机器人控制、自动驾驶等复杂决策领域的实际应用，并总结协作多智能体强化学习面临的挑战和未来发展方向。

关键词

深度强化学习, 多智能体, 效用分配, 人类反馈, 马尔科夫决策过程

引言

1深度多智能体强化学习基本理论

1. 1深度多智能体强化学习原理

1. 2 值函数法和策略搜索法

1. 2. 1 值函数法

1. 2. 2 策略搜索法

1.

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。