一、绪论
前段时间,随着Manus的迅速走红,社会各界重新掀起了关于AGI(Artificial General Intelligence,通用人工智能)的热议。这一直是众多科技公司梦寐以求的发展目标。AGI旨在构建一种能够完成现今人类大部分工作任务的智能系统,从而在未来带来根本性的社会变革——在那个时代,机器人可以接管大部分繁重或重复性工作,而人们则能够更多地享受生活、发挥创造力。
在这一背景下,如何全方位、客观地评估大模型及 AI 助手的能力成为亟待解决的问题。《GAIA: A Benchmark for General AI Assistants》这篇2023年发表的论文引起了广泛关注。该文由来自Meta、HuggingFace及AutoGPT等业界重量级专家联袂撰写,旨在探讨通用人工智能在推理、跨领域知识整合和多任务处理等方面与普通人类的表现差异。
研究团队精心设计了一系列具有代表性的问题,这些问题在概念上对于普通人来说可能相对简单,而对于当前最先进的人工智能模型而言,却不乏严峻的挑战。
阅读全文后,我从多个角度感受到了这篇论文对未来研究领域的启发。
先上心得:文章从多个维度探讨了如何构建一个既能考察AI在多轮对话、逻辑推理以及跨领域知识应用等多方面能力的评估体系。研究团队强调,通过让AI模拟和超越人类在直觉、创造、以及批判性思维等方面的能力,不仅可以推动技术前沿的发展,更能够为构建一个真正有助于人类生活质量提升的智能社会奠定基础。
二、论文的初衷与意义
GAIA被定义为一个通用人工智能助手的基准测试平台,标志着人工智能研究的一个重要里程碑。
论文开头清晰地指出,尽管当前的专用AI模型在特定任务上表现出色,但在综合能力方面,尤其是在处理开放式和多领域任务时仍显不足。GAIA的推出正是为了填补这一空白,它不仅涉及语言生成、逻辑推理和知识检索等基本任务,还扩展到复杂对话和多步骤交互的情境。
GAIA所提出的测试问题源于真实世界的场景,要求人工智能展示一系列基本能力,包括推理能力、多模态处理、网页浏览以及快速应用工具的技巧。这些问题在概念上对人类而言较为简单,但对于大多数现有的高级人工智能模型却充满挑战性。例如,人类回答者的正确率高达92%,而即使是配备了插件的GPT-4,正确率也仅为15%。
GAIA的使用方法相对直接。研究团队设计了466个问题及其答案,并将这些问题公开,同时保留了300个问题的答案,以支持即将推出的排行榜。这些问题主要是基于文本的,其中部分问题还附带了文件(如图像或电子表格),涵盖了广泛的助理用例,包括日常个人任务、科学问题和常识性问题。每个问题旨在获得一个简洁且唯一的正确答案,便于验证和评估。使用GAIA时,只需向人工智能助手提供“零-shot”提示,即可开始测试。要在GAIA上获得理想的得分,人工智能助理必须具备多种基本能力。
GAIA论文中的一个问题示例:
通过构建一个广泛而细致的基准测试,作者希望评测结果能够更真实地反映用户对智能助手在“多维度”能力上的期望。这种方法为未来人工智能助手的发展提供了新的方向和标准,有助于推动AGI的实现。
三、GAIA 的设计和内容
GAIA的设计理念:
-
真实且多样的问题设置。 GAIA 采用了466个由人类精心设计和注释的问题,每个问题大多以文本形式呈现,有时还附带图像、电子表格等文件。这些问题覆盖了从日常个人任务到科学或一般知识等多种用例。
-
与一些传统评估方法相比,GAIA 力图避免那些容易导致作弊或者仅靠记忆答案的方法。由于问题答案是唯一且简洁的事实描述,系统需要依靠实际的推理、快速适应和多模态信息整合才能给出正确答案,而不是简单地复述预训练数据中的内容。
-
一个直观的印象是,GAIA 的设计让用户很容易追踪和验证 AI 的推理过程,比如查看模型是否正确浏览了网页、查找了合适的信息,从而确保答案的准确性。
-
只需要向 AI 助手提供一个简单的零-shot 提示(以及必要的附加文件),系统就能开始问题解答。答案的简洁明了设计(事实、清晰且唯一)不仅便于快速评估,也很好地模拟了现实中用户交互的场景。
GAIA的设计通过明确限定答案格式、利用系统提示符督促模型遵守格式要求,再加上自动化的评分函数,实现了一个高效、自动且贴近实际应用需求的评估体系。这种机制确保了评测结果既真实反映模型能力,又能快速、无人工干预地产生反馈。
GAIA的问题集覆盖了广泛的任务类型,测试AI在不同情境下的应对能力。问题设计不仅包含简单的信息查询,也涵盖了涉及多步决策、工具调用以及与现实世界交互的复杂任务。这样设计可以确保评估指标具有代表性,反映实际应用场景中的挑战。
为了更精确AI能力,GAIA问题被精确地划分为三个难度级别评估人工智能助手的能力。这种分级不仅关注任务的复杂性,还考虑到所需工具的多样性和任务执行的步骤数量。
- Level 1:此级别的问题设计为简单直接,通常不需要使用工具,或者最多只需要一个工具来完成任务。问题的解决步骤不超过5步,确保用户或系统能够快速而高效地得出答案。
- Level 2:问题较为复杂,涉及5到10个步骤,要求用户或系统结合使用不同的工具和资源来完成任务。在这个级别,需要跨多个平台或应用程序进行信息的获取与处理,增强了任务的多样性和深度。
- Level 3:旨在测试近乎完美的通用助手能力,涉及大量的步骤和复杂的决策过程。此类任务要求助手能够调用多种工具和功能,进行广泛的现实世界交互,并实现任务的完全自动化。
在问题设计中,每个问题都配备了详细的注释和解释,目的是将问题拆解为若干明确的子任务和步骤。
GAIA的设计不仅为当前的人工智能助手提供了一个评估标准,也为未来AGI的发展指明了方向。通过聚焦于多任务处理和开放式问题,GAIA能够推动技术的进步,帮助开发更具人性化和实用性的智能助手。这一基准测试的成功实施将为AI的广泛应用奠定基础,助力实现更高级的人工智能系统。
四、 LLMs的GAIA表现
GAIA真的难,即便如GPT-4和Claude等模型,在GAIA上取得的整体得分也远低于人类水平,特别是在需要复杂推理、外部知识整合以及工具使用的任务上,模型的表现更为逊色。这清晰地揭示了当前LLMs在通用人工智能方面仍存在显著差距。
实验结果凸显了不同LLMs之间能力的差异很大。有些模型在某些类型的题目上表现还不错,但在另一些题目上就完全不行。这说明它们的能力比较“偏科”,不像人类那样全面发展。
这表明,当前LLMs在架构设计、训练数据和优化策略上可能存在差异,从而导致它们擅长处理不同类型的问题。
GAIA测试中对工具使用的要求暴露了LLMs在这方面的短板。模型在选择合适的工具、正确使用工具以及整合工具输出信息方面都表现出不足。
在GAIA测试中,模型有时会生成不准确甚至虚假的信息,这对于需要精确知识的任务而言是不可接受的。
GAIA基准测试为LLMs的研究提供了宝贵的启示。它不仅揭示了现有模型的不足,也为未来的研究指明了方向。例如,研究者可以尝试改进模型的推理能力、增强其工具使用技能、提高其知识的准确性,以及探索新的模型架构和训练方法。
五、我的启示与思考
通过认真研读此文,产生了许多关于未来 AI 助手发展方向的思考:
-
传统评测往往过于依赖静态数据和单一任务,未来的 AI 发展要求模型能在多变的实际应用场景中保持高效与灵活。
-
人工智能能力的评估不仅需要定量指标,更要借鉴人类对话的体验。
-
未来 AI 的提升绝非单一任务的突破,而是需要在常识、逻辑推理以及跨领域知识等方面的全方位进化。
参考:
-
gaia-benchmark (GAIA):https://huggingface.co/gaia-benchmark