在人工智能领域,研究生水平的专家推理(GPQA)是一个重要的评估基准。GPQA全称是Graduate-Level Google-Proof Q&A Benchmark,由448个困难的多项选择题组成,这些问题无法通过Google搜索轻松回答,且由生物学、物理学和化学等各个领域的主题专家精心设计。通常来说,在相应领域拥有或正在攻读博士学位的专家在GPQA的准确率在70%上下。
OpenAI推出的全新推理模型o1在GPQA测试中表现惊人,达到了78%的准确率。Anthropic开发的Claude 3.5 Sonnet在研究生水平推理测试(GPQA Diamond)中也有出色表现。此外,Meta发布的Llama 3在多个评测集上均表现良好,其中也包括GPQA。
GPQA不仅是一个评估基准,还在不断发展和完善。如一些研究团队对现有的评估基准进行深入调查,发现其中的问题并提出新版本。例如,多个研究团队对MMLU进行深入调查后提出了MMLU-Redux和MMLU-Pro等新版本。同时,人们也在寻找具有未污染、高质量数据集,使用可靠指标并测量模型关键能力的新基准测试,涵盖知识测试、短期和长期上下文推理、复杂数学能力以及与人类偏好高度相关的任务等方面。
总的来说,GPQA作为研究生水平的专家推理评估基准,在衡量人工智能模型在复杂问题上的表现方面发挥着重要作用。它促使人工智能模型不断进步,推动着人工智能技术向更高水平发展。
GPQA 的组成内容有哪些
GPQA(Graduate-Level Google-Proof Q&A Benchmark)是一个专为研究生级别设计的问答基准数据集。该数据集由一系列精心设计的问答对组成,涵盖了广泛的知识领域,包括生物学、物理学和化学等多个学科领域共 448 个问题。这些问题的设计考虑到了专家与非专家之间的知识差距,通过让专家编写问题并验证答案的客观性,同时让非专家尝试解决问题,确保数据集的问题对于非专家来说具有一定的挑战性。该数据集的问题难度极大,即便是在该领域已取得或正在攻读博士学位的专家,正确率也只有 65%,而对同等专业背景但不同学科的非专家来说,正确率仅为 34%。现有 AI 模型如 GPT-4 在该数据集上的正确率也仅为 39%。例如,在生物学领域的问题可能涉及细胞结构、遗传机制等复杂内容;在物理学领域可能涵盖量子力学、相对论等高深概念;化学领域则可能包括有机合成、化学反应机理等难题。
OpenAI 的 o1 在 GPQA 表现如何
OpenAI 的 AI 模型 o1 在科学、编码和数学等领域表现出色,在 GPQA 基准测试中,o1 的表现首次超过博士级学者,总体得分达 78%,其中物理科目得分高达 93%。o1 采用链式推理逻辑,具备自我纠错能力,但也存在幻觉问题,可能比其他模型更频繁地产生错误答案。尽管 o1 能为科学研究提供宝贵帮助,但结果仍需人工验证和检查,确保准确性和安全性。o1 在科学计算、文献扫描、发现研究空白以及提出新思路方面特别有帮助,更适合专家使用,不适合新手。例如,一名加州物理科学家展示了 o1 的天体质量计算,这个模型在 1 小时内复刻了他花费一年时间完成的博士论文数据。在国际数学奥林匹克资格考试中,o1 得分 83%,远超 GPT-4o 的表现。
Claude 3.5 Sonnet 在 GPQA 表现怎样
从下表中可以看出,在推理测试基准 gpqa(diamond)上,新版 Claude3.5Sonnet 大幅超越 GPT-4o。在视觉 qa、数学推理、文档视觉问答、图表问答、科学表格基准测试中,Claude3.5Sonnet 性能成为业界新标杆。Claude3.5Sonnet 在把握细微差别、幽默和复杂指令等方面表现出显著的性能提升,并且以自然的语气编写高质量的内容。在内部代理编码评估中,Claude3.5Sonnet 解决了 64%的问题,优于 Claude3Opus(解决了 38%)。Claude3.5Sonnet 可以独立编写、编辑和执行代码,并具有复杂的推理和故障排除功能。
Llama 3 在 GPQA 的表现
Meta 推出的 Llama 3 在 MMLU、GPQA、HumanEval、GSM-8K 等多项基准上取得了优异的成绩。Llama 3 8B 在 MMLU、GPQA、HumanEval、GSM-8K 等多项基准上超过谷歌 Gemma 7B 和 Mistral 7B Instruct。Llama 3 70B 也在 MMLU、HumanEval、GSM-8K 等基准上超越了闭源的谷歌 Gemini Pro 1.5、Claude 3 Sonnet。Llama 3 系列最大模型规模将超过 4000 亿参数,其训练数据量是 Llama 2 的七倍,代码量也增至四倍。此外,Llama 3 的训练效率比 Llama 2 提升了三倍。
GPQA 如何发展和完善
为了进一步发展和完善 GPQA,可以从以下几个方面入手。首先,不断扩大问题的涵盖领域,增加更多学科的问题,以更全面地评估 AI 系统在不同领域的能力。其次,可以邀请更多的专家参与问题的编写和答案的验证,提高问题的质量和客观性。同时,加强对现有 AI 模型在 GPQA 上的表现分析,找出其不足之处,为模型的改进提供方向。此外,可以引入更多的评估指标,不仅仅局限于正确率,还可以考虑问题的解决时间、推理过程的合理性等因素。还可以开展国际合作,让不同国家和地区的研究机构共同参与 GPQA 的发展,分享经验和资源,推动 GPQA 成为全球公认的 AI 系统评估基准。
综上所述,GPQA 作为研究生水平的专家推理基准,对于评估 AI 系统的能力具有重要意义。OpenAI 的 o1、Claude 3.5 Sonnet 和 Meta 的 Llama 3 等模型在 GPQA 上的表现各有优劣,这也为 AI 技术的发展提供了参考和动力。未来,通过不断发展和完善 GPQA,可以更好地推动 AI 技术的进步,为人类社会带来更多的创新和价值。