多智能体博弈强化学习算法的重难点
CRF的主要难点:一是要求智能体具有完美回忆,这在很多实际博弈场景中很难满足;二是算法的收敛性很难保证;三是由于要遍历很多博弈节点,因此需要大量内存空间。
NFSP的主要难点:一是 NFSP 系列算法依赖于off-policy 的深度 Q 值网络,因此在搜索规模大、即时策略场景下很难收敛;二是在训练时智能体都是独立更新,没有利用对手的信息;
三是 NFSP 的最佳响应计算依赖于 Deep Q-learning,收敛时间长且计算量大。
CFR变体和FP变体
最新推荐文章于 2024-08-25 09:30:17 发布