在人工智能研究领域,大型语言模型(LLM)展现出了强大的通用问题解决能力。然而,大多数基于LLM的智能体(Agent)仍然局限于特定任务,难以应对复杂动态的场景。近日,来自浙江大学、中科院软件所等机构的研究人员提出了一种新型智能体框架Agent-Pro,通过政策层面的反思和优化,实现了自主学习和进化。
从"21点"到德州扑克:Agent-Pro的惊人表现
研究团队选择了"21点"和"限注德州扑克"这两款经典博弈游戏来评估Agent-Pro的性能。在"21点"游戏中,Agent-Pro不仅击败了原始的GPT模型,还超越了广受关注的ReAct框架。
以一局典型的"21点"对局为例:
玩家手牌:J♠ 9♥
庄家明牌:7♣
在这种情况下,Agent-Pro通过分析得出了准确的自我信念(Self-Belief)和对外部世界的信念(World-Belief):
Self-Belief: "我的手牌总点数为19点,已经非常接近21点。"
World-Belief: "庄家的明牌是7点,暗牌可能在2-10点之间。"
基于这些信念,Agent-Pro做出了合理的选择 - 停牌(Stand)。相比之下,ReAct框架在同样的情况下选择继续要牌(Hit),最终导致爆牌输掉游戏。
在更为复杂的德州扑克游戏中,Agent-Pro的表现更加出色。在一次多方对局中,参与者包括训练后的DQN、DMC策略、原生GPT3.5以及基于GPT-