AI基准测评（下）：视频生成、代码能力、逻辑推理，AI是否已经超越人类？

本文链接：https://blog.csdn.net/m0_56647251/article/details/140145013

本文作者：王加龙，阿里云高级算法专家

文章推荐

知乎AI产品“直答”正式上线！文心一言4.0 Turbo来袭，可为农民提供专业指导！｜AI日报

在AI 基准测试（上）：图像处理、自然语言与语音生成，AI 是否已经超越了人类？文章中，我们通过自然语言任务、图像处理任务、语音生成三方面的基准测试，向大家展示AI的表现及效果。在本期文章中，将继续向大家展示AI在视频生成、代码能力、AI 推理等基准测试的表现及效果。

对比测评

为了衡量AI的能力，历史上有许多人提过很多有意思的测试方法，学术界也有各种各样的定量研究方法。

关于测试方法，其中很有名的一个是“图灵测试”，它是为了探究机器智能是否具备与人类相似或无法区分的能力；关于定量研究，普遍的做法是定义某种任务的测评数据集，对 AI 进行测评打分，然后对比 AI 与 Human 的得分高低。

2.1 基于图灵测试

图灵在1950年的论文中预测，“大约50年后，人们将有可能对存储容量达到109左右的计算机进行编程，使其在模仿游戏中表现出色，以至于一般提问者经过 5分钟提问后做出准确判断的几率不超过 70%”。即，AI系统的通过率达到30%（目前不清楚图灵为何选定这个值）。时至今日已过去了 70 多年，图灵的预测到底达到了没有？针对大模型的图灵测试，UCSD专门有人在研究。他们在 2023年10月、2024年5月先后共发表了2篇论文，以分享他们最新的研究进展和结论。

根据其2024年5月的最新研究论文，在图灵测试中，GPT-4有54%的情况下被判定为人类。这个值意味着什么呢？它意味着GPT-4的通过率超出了图灵当年提到的30%这个值，还意味着GPT-4被判定为人类的概率超过了五五开。

从这个意义上讲，GPT-4已经通过了图灵测试。此外，在该测试中，人类被判定为人类人概率为67%，也就是说人的表现还是更像人。

2.2 基于基准测评

用特定任务下的基准数据集做测试，在某些任务上大模型开始超越人类。比如，图像分类（2015）、基础阅读理解（2017）、视觉推理（2020）、自然语言推理（2021）、多任务语言理解任务（2024.1, Gemini Ultra）。但是，在复杂认知的任务上，AI仍然不及人类，比如视觉常识推理、竞赛级的数学问题。如下图所示，虚线是人类的水准，其它实线是AI在不同任务下的得分。

随着算法模型的迭代，某些经典测试基准的准确率已经很高，模型的性能也趋于饱和。所以，新的、更难的基准数据集也在被推出。因此，AI是否超越人类与具体的任务和测试集有关。通俗地说法是，张三、李四都得了100分，指的是他们在试卷上的表现，换张试卷可能结果会有不同。

分领域详情

本节将从视频生成、代码能力、AI 推理等六大方面，详细介绍AI的能力表现及效果。关于自然语言处理、图像处理、语音生成三个方向的基准测试可以参考上一篇文章：AI 基准测试（上）：图像处理、自然语言与语音生成，AI 是否已经超越了人类？

3.4 视频生成

视频生成领域，尚未见有流行的测评基准，所以本文将从各家模型或产品本身提供的样本来展示技术能力效果。2023年比较产品有Pika、Runway、Genmo，但主要是生成几秒钟的极短视频。直到2024年2月，OpenAI发布的Sora，可以生成长达1分钟的视频，惊艳了全世界。

本节将一一列举它们的能力。但鉴于这些都是国外的产品，所以不妨去一些中文网站观看AI生成的视频效果。

3.4.1 Pika

官网：https://pika.art/

一般只能生成几秒的极短视频。2023年4月，斯坦福两个大学生退学创业成立了Pika labs，目的是打造一个更易使用的人工智能视频生成器。Pika labs的官方博客上写道：“我们对Pika的愿景是让每个人都能成为自己故事的导演，并激发出我们每个人的创造力。”2023年11月29日，发布了第一个产品Pika 1.0，

新功能主要有以下几个方面：

一是用文本和图像生成视频，只需要输入几行文本或上传图像，就可以创建简短、高质量的视频；
二是编辑更改视频，输入相关文本，实现对背景环境、衣着道具等元素的增减或者更改；
三是切换视频风格，例如在黑白、动画等不同风格中转化；四是更改视频的宽高比。

pika AI生成视频

3.4.2 Runway

官网：https://runwayml.com/

样例一：Text to Video

https://www.yuque.com/sologun-ilfz6/mt8iwm/urtfgsidwgyigdt9#OqhKo

样例二：Image to Video

https://www.yuque.com/sologun-ilfz6/mt8iwm/urtfgsidwgyigdt9#gjVGb

样例三：Video to Video

https://www.yuque.com/sologun-ilfz6/mt8iwm/urtfgsidwgyigdt9#LpYGv

样例四：影视风格欣赏。

runway AI生成视频

主要特点总结：

一般只能生成几秒的极短视频。主要功能特点有：

AI视频生成与编辑。使用AI技术自动生成视频内容，包括动画、过渡效果和视觉特效，并提供一系列视频编辑工具。
图像生成与处理。可以利用Runway的AI算法创建新的图像、修改现有图像或进行风格转换。
3D内容创作。支持3D模型的生成、编辑和渲染，以及实时3D场景的构建和交互。
音频处理。提供了音频处理工具，如语音合成、音乐生成和音效设计。
Workflow自动化。允许用户创建和定制工作流程，自动化复杂的创意任务和流程。
API与集成。提供了API，使得开发者能够将其AI功能集成到自己的应用程序和服务中。

3.4.3 Genmo

官网：https://www.genmo.ai/?ref=aihub.cn

Genmo最近的一款产品为Replay，它是一款高质量AI视频生成器；截止2024年5月份已经发布v0.1、v0.2。一般只能生成几秒的极短视频。每天会有一些免费额度可供试用（注：左下角注册可用，但需要ladder）。

一、主要特性

Genmo Replay：一款强大的文本到视频的模型，能将文本提示转化为动态视频。
AI驱动的艺术创作：根据用户定义的提示生成令人惊叹的图像和艺术作品。
3D物体生成：利用Genmo的AI能力轻松创建复杂的3D模型。

二、适用用户

非常适合内容创作者、数字艺术家、视频制作人以及媒体行业的专业人士。它提供了一种无缝的解决方案，用于生成高质量的视频、图像和3D物体，减少了传统内容创作过程中所需的时间和努力。

3.4.4 Emu Video

论文：https://arxiv.org/pdf/2311.10709
官网：https://emu-video.metademolab.com/

此前一般的视频生成，往往依循的是图像生成的路径，而Emu Video则是Meta基于Transformer的视频生成模型，它不再靠图像一帧帧生成来堆积成视频。它先基于文本生成图片，然后基于文本和图片来直接生成视频。

3.4.5 Vidu

官网：https://www.shengshu-ai.com/vidu

Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型，于2024年4月27日在中关村论坛上发布。该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率达1080P的高清视频内容。

Vidu AI生成视频

3.4.6 Sora

技术报告：

https://openai.com/index/video-generation-models-as-world-simulators/

官网：https://openai.com/index/sora/

2024年2月16日，OpenAI发布了 Sora 大模型，它可根据用户指令生成长达1分钟的高清视频，能生成具有多个角色、包含特定运动的复杂场景。样例一：简化后的动图OpenAI一共放出了48个视频来展示Sora模型的强大之处。可以找一个自媒体的文章看简化动图，如下：

动图封面

提示词：无人机拍摄的海浪冲击着大苏尔加雷角海滩上崎岖的悬崖。蓝色的海水拍打着白色的波浪，夕阳的金色光芒照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，悬崖边上长满了绿色的灌木丛。从公路到海滩的陡峭落差是一个戏剧性的壮举，悬崖的边缘突出在海面上。这是一幅捕捉到海岸原始美景和太平洋海岸公路崎岖景观的景色。

样例二：完整长视频

https://player.bilibili.com/player.html?bvid=BV1Wm411S73n&autoplay=0

样例三：世界模拟器验证

号称能够理解和模拟运动中的物理世界。下面大家可以仔细观看如下官方视频，验证它是否真的具备“世界模拟器”的潜力。

sora AI生成视频

3.5 代码能力

做AI算法的人都是要写代码的，所以很早大家就在研究如何让AI具备写代码的能力。近几年，大模型用于代码生成成为了热门方向。大模型在训练过程中，基本都会掺入代码数据进行学习，所以许多大模型都具有代码生成与理解的能力。

3.5.1 基础代码（HumanEval）

论文：https://arxiv.org/pdf/2107.03374v2
榜单：https://paperswithcode.com/sota/code-generation-on-humaneval

对于基础性的编程问题方面（比如函数级的编程），大模型的准确率已经达到了很高准确率。HumanEval基准（2021年提出）是目前最流行的评估基准，它包含了164道原始编程题，每个问题都包括一个函数签名、文档字符串、正文和几个单元测试；因为模型是基于GitHub代码训练的，所以采用人工单独写的代码作为测评基准是比较客观的。

HumanEval数据集中可评估语言理解、推理、算法和简单数学能力，要求从文档字符串生成独立 Python函数。

目前，得分最高的是AgentCoder（基于GPT-4，HKU、SJTU、KCL），其准确率达到了96.3%。这个分数是很厉害的，因为GPT4仅为76.5%、Gemini Ultra仅为74.4%。

3.5.2 综合理解（CodeXGLUE）

论文：https://arxiv.org/pdf/2102.04664
GitHub：https://github.com/microsoft/CodeXGLUE

CodeXGLUE包含 14个数据集（大部分整理自其他评估任务）、涉及10个任务，以及一个用于模型评估和比较的平台。CodeXGLUE还转门提供了三个baseline模型，包含BERT模型、GPT模型和Encoder-Decoder模型，以使研究者更易使用该平台进行测评对比。这些数据和基准线可以帮助开发和验证各种程序理解和生成的新方法。数据集主要包括：1）2个填空测试数据集，涵盖了6种编程语言；2）2个行级别的代码补全数据集，分别采用Java、Python；3）1个Java-C#代码转换数据集；4）2个自然语言代码搜索测试集；5）1个文档翻译数据集，涵盖5种自然语言。

根据该数据集 GitHub 中的描述，它所考察的 10 类任务如下：

克隆检测： 任务是测量代码之间的语义相似性。这包含两个子任务：第一个子任务，是检查两个给定的代码是否有相同的语义；第二个子任务的目标是，给定一个代码作为询问，检索语义相似的代码。
缺陷检测： 目标是确定源代码体是否包含可用于攻击软件系统的缺陷，如资源泄漏、释放后使用漏洞和DoS攻击。
完形填空测试： 预测一个代码中的掩码标记，包含两个子任务。第一个是从整个词汇表中测量预测掩码标记的准确性。另一个是通过区分“max”和“min”来测试语义推理能力。
代码补全： 根据代码的上下文预测接下来的token。它的子任务是token级别的代码完成和行级别的代码完成。前者检查了下一个token是否被正确预测，而后者检查了生成的行有多好。
代码翻译：将代码从一种编程语言翻译成另一种，比如，从 Java 到 C#。
代码搜索： 通过度量文本和代码见的语义相关性，来实现搜索。它由两个子任务构成。第一个是根据自然语言询问，找到最相关的代码；第二个子任务是分析询问-代码对，来预测代码是否回答了询问。
代码修复： 目标是通过自动化代码bug修复来完善代码。
文本到代码的生成：通过自然语言描述生成代码。
代码摘要： 为代码生成自然语言注释（docstring 或 comment）。
文件翻译： 将代码文档从一种自然语言翻译到另一种。

部分数据集示例如下。公开榜单上给出了一些模型的测评分数，但整体上都不太理想，说明仍有进步空间。

3.5.3 工程代码（SWE-bench）

2023年10月，一项新的基准被提出来了，它就是SWE-bench（2294道题），来自于GitHub issues和流行的Python库（主要是bug报告和功能需求）；SWE-Bench用于评估AI的软件工程能力，重点考察大模型解决实际GitHub问题的能力。它往往需要依据上下文多个函数、不同的运行环境来执行复杂的推理：因为i修复一个bug可能涉及导航一个大型仓库，理解不同文件中的功能之间的相互作用，或者在复杂的代码中发现一个小错误。这个难度，可想而知！

该测评基准的任务具体模式为：

模型输入。给模型一个问题的文本描述和一个完整的代码库。其任务是对代码库进行编辑以解决问题。实际上，它将编辑表示为补丁文件，这些文件指定了为了解决问题需要修改代码库中的哪些行。
评估指标。为了评估一个提出的解决方案，使用unix的补丁程序应用生成的补丁到代码库，然后执行与任务实例相关的单元和系统测试。如果补丁成功应用并且所有这些测试都通过，即认为提出的解决方案成功解决了问题。基准的指标是解决的任务实例的百分比。

该基准近乎“无敌”：各类知名大模型纷纷交出了接近0分的答卷。直到普林斯顿大学发布SWE-agent，通过与GPT4联手（SWE-agent+GPT4）“秒杀”了此前一众模型，但即便如此也仅解决了其中12.47%的问题。

3.6 AI推理

3.6.1 通用推理

所谓通用推理，是指能做到广泛推理而不需要给定某个领域。下面用两个比较著名的专家级测评基准来看看当前AI的能用推理能力。

基准一：MMMU

论文：https://arxiv.org/pdf/2311.16502
榜单：https://mmmu-benchmark.github.io/

MMMU（MassiveMulti-disciplineMultimodalUnderstanding and Reasoning），它用于对专家级的AGI作测评。由北美学者开发，包含11500大学水平的问题，来自六大核心领域：艺术&设计，商业，科学，健康&医疗，人类与社会科学，化学结构，等等。

根据2024年5月27日最新榜单数据，目前最厉害的模型是 GPT-4o，全科目测评准确率为 69.1%，尚不能达到人类专家的中等水平的准确率82.6%。

基准二：GPQA

论文：https://arxiv.org/abs/2311.12022

GPQA：（A Graduate-LevelGoogle-ProofQ&ABenchmark），它是2023年由NYU、Anthropic、Meta等提出，用于测评AI在多学科下的推理能力。包含了448道高难度的多选题，由各领域（比如生物、物理、化学）专家精心制作，使得这些题即便通过Google搜索也难以找到答案。PhD水平的专家，在GPQA上选择相应专长学科进行测试，准确率为72.5%；非专家的普通人的准确率则为30.5%。可见，这是地狱般的难度。

目前，表现最好的AI模型是GPT-4，准确率为41%，超过了普通人，但还远不及专家级水平。

3.6.2 数学推理

数学问题求解的测评基准用于评估AI的数学推理能力。用从小学水平到竞赛标准的各种数学题进行测试，可以实现AI模型的数学推理能力测评。在此列举三种测评基准数据集。

基准一：GSM8K

该数据集由大约8000道题组成，是小学各年级的题目。要求AI模型运用算术运算来给出多步骤的解法。该基准成为了测评各种高级LLM的热门基准。目前，最强表现来自于GPT-4变体，即GPT-4 Code Interpreter，准确率达到了97%。这说明，AI的数学能力在某种程度上“小学毕业”了。

基准二：MATH

论文：https://arxiv.org/pdf/2103.03874

MATH数据集包含有12500道竞赛级的数学题，是UC Berkeley的研究人员于2021年提出。刚提出时，AI系统不堪一击，只能解决6.9%的问题；到了2023年，基于GPT-4的模型已经可以解决84.3%的问题了，这是目前AI最高的水平（人类的基线水平是90%）。

3.6.3 视觉推理

视觉常识推理（Visual Commonsense Reasoning, VCR）挑战是2019年提出的，用于测试AI系统的常识性视觉推理能力。在这项测试挑战中，AI系统不仅要基于图片来回答问题，还要给出答案背后的推理逻辑。VCR水平的高低采用Q->AR分数，它既评估选择出正确答案的能力（Q->A）、也评估答案背后是否有合理的原因（Q->R）。

截止到2023年，AI系统尚未达到人类水平；但看来为时也不远了。

3.6.4 因果推理

因果推理(Causal Reasoning)用于评估AI系统理解因果关系的能力。

BigToM

此前，关于LLM是否具备“心智”（Theory-of-mind, ToM）这方面的评估一直比较少。ToM可用于理解一些精神状态相关的东西，比如信念、意图以及情感。所以2023年一项名为BigToM的基准被研究人员提了出来，用于评估LLM的社会能力和因果推理能力。这项基准包含了25个控制变量和5000个模型生成的评估，已被人类评估者认定为评估模型ToM的优选基准。