人工智能在多人合作游戏中展现“心智理论“能力

在人工智能(AI)领域,大型语言模型(LLMs)一直是研究热点。近日,香港科技大学的研究团队在中国传统纸牌游戏"掼蛋"上对LLMs的能力进行了创新性探索,为AI在复杂多人合作环境中的应用开辟了新途径。

AI智能体首次挑战复杂中文纸牌游戏

掼蛋是一种流行的中国纸牌游戏,四名玩家分为两队进行对抗,需要队友之间默契配合才能取胜。这种游戏环境对AI来说具有多重挑战:信息不完整、需要多方协作、以及非英语语境。

研究团队选择掼蛋作为测试环境,对目前主流的开源和闭源LLMs进行了全面评估。这些模型包括OpenAI的GPT-4和GPT-3.5,以及百川、ChatGLM和通义千问等中文大模型。

"我们希望通过这项研究,探索LLMs在真实复杂环境中的表现。"研究负责人宋阳秋教授表示,“掼蛋游戏集合了多项挑战,是检验AI能力的理想平台。”

引入"心智理论"提升AI合作能力

初步测试结果显示,与专门训练的强化学习模型相比,LLMs在掼蛋游戏中的表现还有不小差距。研究人员分析发现,LLMs在处理变长且庞大的有效行动列表时存在困难。

为解决这一问题,团队开发了一个基于强化学习的外部工具,帮助LLM智能体缩小需要分析的有效行动范围。更重要的是,研究者引入了"心智理论"(Theory of Mind, ToM)规划技术,使AI能够理解其他玩家的意图和行为模式。

"心智理论是人类认知的重要能力,让我们能够理解他人的想法和行为。"研究团队解释道,“我们尝试将这种能力赋予AI,使其在复杂博弈中做出更明智的决策。”

具体来说,研究者设计了一阶和二阶ToM规划方法。一阶ToM让AI能够根据历史行为推断其他玩家可能持有的牌型和策略;二阶ToM则进一步让AI考虑对手对自己意图的猜测,从而制定更高级的策略。

实验结果:AI展现出协作能力

实验结果令人鼓舞。采用ToM规划后,几乎所有测试的LLM模型都表现出明显的性能提升。其中,GPT-4模型在外部工具和ToM能力的辅助下,达到了与专业强化学习模型相当的水平。

"这说明LLMs确实具备在复杂环境中理解他人意图、与队友合作的潜力。"研究人员表示,“尽管还存在差距,但结果令人振奋。”

值得注意的是,这些改进是在零样本(zero-shot)设置下实现的,即模型没有经过专门针对掼蛋游戏的微调训练。这凸显了LLMs强大的泛化能力。

对AI发展的启示

这项研究为AI在复杂多智能体环境中的应用提供了新的思路。研究团队认为,ToM等认知能力的引入,可能是AI迈向更高级智能的关键。

"未来的AI不仅需要强大的推理能力,还要具备理解他人、与人合作的社交智能。"宋阳秋教授指出,“我们的研究是朝这个方向迈出的一小步。”

研究人员表示,下一步将探索如何将这些技术应用到更广泛的场景,如多智能体协作、人机交互等领域。他们也呼吁学界关注非英语环境下的AI研究,以推动AI技术的普适性发展。

这项突破性研究不仅展示了AI在复杂任务中的潜力,也为人工智能向着更高级、更全面的方向发展指明了道路。随着研究的深入,我们有理由期待AI在更多领域发挥重要作用,为人类社会带来更多创新和价值。

参考资料

  1. Yim, Y. et al. (2024). Evaluating and Enhancing LLMs Agent Based on Theory of Mind in Guandan: A Multi-player Cooperative Game Under Imperfect Information. arXiv:2408.02559.

  2. OpenAI. (2023). GPT-4 Technical Report.

  3. Yang, Z. et al. (2023). ChatGLM: An Open Bilingual Dialogue Language Model. arXiv:2103.06633.

  4. Bai, Y. et al. (2023). Qwen Technical Report. arXiv:2309.16609.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值