会玩德州扑克的AI智能体:Agent-Pro如何通过自我反思进化

在人工智能研究领域,大型语言模型(LLM)展现出了强大的通用问题解决能力。然而,大多数基于LLM的智能体(Agent)仍然局限于特定任务,难以应对复杂动态的场景。近日,来自浙江大学、中科院软件所等机构的研究人员提出了一种新型智能体框架Agent-Pro,通过政策层面的反思和优化,实现了自主学习和进化。

从"21点"到德州扑克:Agent-Pro的惊人表现

研究团队选择了"21点"和"限注德州扑克"这两款经典博弈游戏来评估Agent-Pro的性能。在"21点"游戏中,Agent-Pro不仅击败了原始的GPT模型,还超越了广受关注的ReAct框架。

以一局典型的"21点"对局为例:

玩家手牌:J♠ 9♥  
庄家明牌:7♣

在这种情况下,Agent-Pro通过分析得出了准确的自我信念(Self-Belief)和对外部世界的信念(World-Belief):

Self-Belief: "我的手牌总点数为19点,已经非常接近21点。"
World-Belief: "庄家的明牌是7点,暗牌可能在2-10点之间。"

基于这些信念,Agent-Pro做出了合理的选择 - 停牌(Stand)。相比之下,ReAct框架在同样的情况下选择继续要牌(Hit),最终导致爆牌输掉游戏。

在更为复杂的德州扑克游戏中,Agent-Pro的表现更加出色。在一次多方对局中,参与者包括训练后的DQN、DMC策略、原生GPT3.5以及基于GPT-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值