这三个博弈论新趋势，正深刻影响深度强化学习道翰天琼认知智能未来机器人接口API

最新推荐文章于 2024-10-04 10:10:18 发布

认知智能思考者

最新推荐文章于 2024-10-04 10:10:18 发布

阅读量144

点赞数

文章标签：自然语言处理自动驾驶神经网络数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49525819/article/details/107591092

版权

博弈论在深度强化学习中扮演关键角色，平均场博弈作为新兴方法正在影响DRL的发展。平均场博弈理论，源于2006年，用于研究大规模智能体系统的差异化博弈，对理解和优化复杂多智能体环境中的DRL模型具有重要意义。通过模拟如鱼群行为的案例，展示了其在处理无限多智能体环境中的潜力。结合认知智能和接口API，这一理论可能推动未来AI技术的进步。

摘要由CSDN通过智能技术生成

博弈论在现代人工智能（AI）解决方案中正扮演着至关重要的角色，深度强化学习（DRL）正是积极拥抱博弈论的头等公民。

从单智能体程序到复杂的多智能体深度强化学习环境，博弈论原理贯穿了 AI 程序的整个生命周期。而反过来，DRL 的快速演化也重新激发了人们对博弈论研究的关注。

目前，大多数 DRL 模型事实上还停留在传统的博弈论层面，例如纳什均衡或零和游戏等。但随着DRL的发展，传统博弈论方法已经逐渐呈现出不足之处，而同时则有一些新的博弈论方法被纳入到人工智能的程序当中。

因此，对于我们来说，若想进一步优化深度强化学习的模型，考虑融入新的博弈论方法，是值得考量的一个方向。

以下三个，正是在深刻影响 DRL 的「新」博弈论方法，或许用到你的模型中会大大改观模型的性能。

一、平均场博弈（Mean Field Games）

在博弈论家族中，平均场博弈（MFG）还是一个相对较新的领域。

平均场博弈论诞生于 2006 年，这一理论是由两个团队独立提出的，一个是蒙特利尔的 Minyi Huang、Roland Malhame 和 Peter Gaines，另一个是巴黎的 Jean-Michel Lasry和菲尔兹奖获得者 Pierre-Louis Lions。

从概念上讲，平均场博弈论是一套方法和技术的组合，它被用来研究由「理性博弈方」组成的大群体下的差异化博弈。这些智能体不仅对自身所处的状态（如财富、资金）有偏好，还关注其他智能体在整个样本分布中所处的位置。平均场博弈理论正是针对这些系统对广义纳什均衡进行了研究。

平均场博弈的经典案例是，如何训练鱼群朝相同方向游，或者以协作方式游。

这个现象很难用理论解释，但它的本质事实上是，鱼会根据最靠近的鱼群的行为做出反映。再具体点儿，每条鱼并不在乎其他单个鱼的行为，而是关注附近作为一个整体、统一移动的鱼群做出的行为。

如果我们用数学方程表述这个原理，一方面可以用 Hamilton-Jacobi-Bellman 方程来描述鱼对周边鱼群的反应，另一方面则可以用 Fokker-Planck-Kolmogoroy 方程来表示决定整个鱼群行动的所有鱼

最低0.47元/天解锁文章

认知智能思考者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。