斯坦福大学发布最新AI形势报告(2024)第二章:Technical Performance

在这里插入图片描述

原文地址

摘要

今年人工智能指数的技术性能部分提供了2023年人工智能进步的全面概述。它从AI技术性能的高级概述开始,跟踪其随时间的广泛演变。然后,本章探讨了各种人工智能功能的现状,包括语言处理、编码、计算机视觉(图像和视频分析)、推理、音频处理、自主代理、机器人技术和强化学习。它还重点关注了过去一年中人工智能研究的显着突破,探索通过提示、优化和微调来改进LLM的方法,并以探索人工智能系统的环境足迹作为结束。

Chapter Highlights

  1. AI在某些任务上击败了人类,但不是所有任务。人工智能在几个基准上超过了人类的表现,包括图像分类、视觉推理和英语理解。然而,它在更复杂的任务中落后,如竞赛级数学,视觉常识推理和规划。
  2. 多模式AI来了。传统上,人工智能系统的范围有限,语言模型在文本理解方面表现出色,但在图像处理方面表现不佳,反之亦然。然而,最近的进步导致了强大的多模态模型的发展,例如Google的Gemini和OpenAI的GPT-4。这些模型具有灵活性,能够处理图像和文本,在某些情况下甚至可以处理音频。
  3. 出现了更严格的基准。AI模型在ImageNet、SQuAD和SuperGLUE等既定基准测试中已经达到性能饱和,这促使研究人员开发更具挑战性的模型。2023年,出现了几个具有挑战性的新基准,包括用于编码的SWE-工作台、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa、用于基于代理的行为的AgentBench和用于幻觉的HaluEval。
  4. 更好的AI意味着更好的数据,这意味着更好的AI。SegmentAnything和Skoltech等新的人工智能模型正被用于生成图像分割和3D重建等任务的专用数据。数据对于AI技术改进至关重要。使用人工智能创建更多数据可以增强当前的功能,并为未来的算法改进铺平道路,特别是在更困难的任务上。
  5. 人的评价是在。随着生成模型产生高质量的文本、图像等,基准测试已慢慢开始转向纳入Chatbot竞技场排行榜等人类评估,而不是ImageNet或SQuAD等计算机化排名。公众对人工智能的看法正在成为跟踪人工智能进展的一个越来越重要的考虑因素。
  6. 由于LLM,机器人变得更加灵活。语言建模与机器人技术的融合产生了更灵活的机器人系统,如PaLM-E和RT-2。除了改进的机器人功能之外,这些模型还可以提出问题,这标志着机器人朝着能够更有效地与真实的世界互动的方向迈出了重要一步。
  7. 更多关于人工智能的技术研究创建能够在特定环境中自主操作的AI代理系统,长期以来一直是计算机科学家的挑战。然而,新的研究表明,自主AI代理的性能正在改善。目前的智能体现在可以掌握像Minecraft这样的复杂游戏,并有效地处理现实世界的任务,例如在线购物和研究援助。
  8. 封闭式LLM的表现明显优于开放式LLM。在10个精选的AI基准测试中,封闭模型的表现优于开放模型,平均性能优势为24.2%。封闭和开放模型的性能差异对人工智能政策辩论具有重要意义。

2.1 Overview of AI in 2023

Timeline: Significant Model Releases

根据AI指数指导委员会的选择,以下是2023年最值得注意的一些模型版本。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

State of AI Performance

截至2023年,人工智能在一系列任务中已经达到了超越人类能力的性能水平。图2.1.16展示了人工智能系统相对于人类基线的进展,九个人工智能基准对应于九个任务(例如,图像分类或基本水平的阅读理解)。 AI Index团队选择了一个基准来代表每个任务。多年来,人工智能已经在少数基准上超过了人类基线,例如2015年的图像分类,2017年的基本阅读理解,2020年的视觉推理和2021年的自然语言推理。截至2023年,仍有一些任务类别人工智能未能超越人类能力。这些往往是更复杂的认知任务,如视觉常识推理和高级数学问题解决(竞赛级数学问题)。

AI基准测试是一种标准化测试,用于评估AI系统在特定任务上的性能和能力。例如,ImageNet是一个典型的AI基准测试,它包含大量标记图像,AI系统的任务是准确地对这些图像进行分类。跟踪基准测试的进展一直是AI社区监控AI系统进步的标准方式。

在图2.1.16中,这些值被缩放以建立一个标准度量,用于比较不同的基准。定标函数被校准,使得每年最佳模型的性能被测量为给定任务的人类基线的百分比。例如,105%的值表示模型的性能比人类基线高5%。

在这里插入图片描述

AI Index Benchmarks

正如去年的报告所强调的那样,人工智能技术性能的一个新兴主题是在许多基准上观察到的饱和,例如用于评估人工智能模型熟练程度的ImageNet。近年来,这些基准测试的表现停滞不前,这表明人工智能的能力处于停滞状态,或者研究人员转向更复杂的研究挑战。由于饱和,2023年人工智能指数中的几个基准已经从今年的报告中删除。图2.1.17重点介绍了2023年版报告中包含但未在今年报告中列出的一些基准,并显示了自2022年以来这些基准的改进。“NA”表示未观察到改善。
在这里插入图片描述

基准测试也可能饱和或看到有限的改进,因为所产生的问题很难,相应的性能无法提高。本节中讨论的基准测试饱和问题更多地指的是性能达到接近完美水平的基准测试,在此基础上很难改进。

为简洁起见,图2.1.17突出显示了一部分弃用的基准测试。由于饱和,没有记录新的最先进的分数,或者研究重点从基准转移而被弃用的其他基准包括:Celeb-DF(deepfake检测),CIFAR-10(图像分类),NIST FRVT(面部识别)和Procgen(强化学习)。

图2.1.18显示了2023年人工智能指数报告中精选的基准的同比改善百分比。大多数基准测试在引入后不久就看到了显着的性能提升,然后提升速度就会减慢。在过去几年中,这些基准中的许多基准几乎没有或根本没有改进。
在这里插入图片描述
为了应对基准测试的饱和,人工智能研究人员正在远离传统的基准测试,并在更困难的挑战上测试人工智能。2024年人工智能指数跟踪了几个新基准的进展,包括编码、高级推理和代理行为方面的任务,这些领域在以前版本的报告中代表性不足(图2.1.19)。

在这里插入图片描述

2.2 Language

自然语言处理(NLP)使计算机能够理解,解释,生成和转换文本。目前最先进的模型,如OpenAI的GPT-4和Google的Gemini,能够生成流畅和连贯的散文,并显示出高水平的语言理解能力(图2.2.1)。这些模型中的许多现在也可以处理不同的输入形式,例如图像和音频(图2.2.2)。

在这里插入图片描述
在这里插入图片描述

Understanding

英语语言理解挑战人工智能系统以各种方式理解英语,如阅读理解和逻辑推理。

HELM: Holistic Evaluation of Language Models

如上所述,近年来,LLM在传统的英语语言基准测试中已经超过了人类的表现,例如SQuAD(问答)和SuperGLUE(语言理解)。这种快速发展导致需要更全面的基准。

2022年,斯坦福大学的研究人员引入了HELM(语言模型整体评估),旨在评估不同场景下的LLM,包括阅读理解、语言理解和数学推理。6 HELM评估了Anthropic、Google、Meta和OpenAI等几家领先公司的模型,并使用“平均胜率”来跟踪所有场景下的平均表现。截至2024年1月,GPT-4以0.96的平均胜率领先于总HELM排行榜(图2.2.3);然而,不同的模型在不同的任务类别中名列前茅(图2.2.4)。

在这里插入图片描述

MMLU: Massive Multitask Language Understanding

大规模多任务语言理解(MMLU)基准评估了57个学科(包括人文科学、STEM和社会科学)在零镜头或少镜头场景下的模型性能(图2.2.5)。MMLU已经成为评估LLM能力的首要基准:许多最先进的模型,如GPT-4,Claude 2和Gemini都已经针对MMLU进行了评估。2023年初,GPT-4在MMLU上发布了最先进的分数,后来被谷歌的Gemini Ultra超越。图2.2.6突出显示了不同年份MMLU基准的最高模型得分。报告的分数是整个测试集的平均值。截至2024年1月,Gemini Ultra的得分最高,为90.0%,自2022年以来提高了14.8个百分点,自MMLU于2019年成立以来提高了57.6个百分点。Gemini Ultra的得分是第一个超过MMLU人类基线89.8%的人。

在这里插入图片描述
在这里插入图片描述

Generation

在生成任务中,AI模型被测试其产生流利和实用的语言响应的能力。

Chatbot Arena Leaderboard

有能力的LLM的兴起使得了解公众更喜欢哪些模型变得越来越重要。在2023年推出,聊天机器人竞技场排行榜是公众LLM偏好的第一个综合评估之一。排行榜允许用户查询两个匿名模型,并为首选的世代投票(图2.2.7)。截至2024年初,该平台已获得超过20万张选票,用户将OpenAI的GPT-4 Turbo列为最受欢迎的型号(图2.2.8)。
在这里插入图片描述
在这里插入图片描述

Factuality and Truthfulness

尽管取得了显着的成就,LLM仍然容易受到事实不准确和内容幻觉的影响-创造看似现实,但虚假的信息。LLM产生幻觉的现实世界实例的存在-例如,在法庭案件中-强调了密切监测LLM真实性趋势的日益必要性。

TruthfulQA

在ACL 2022上推出的TruthfulQA是一个基准测试,旨在评估LLM在生成问题答案时的真实性。该基准包括38个类别的大约800个问题,包括健康,政治和金融。许多问题都是为了挑战人们普遍持有的误解,这些误解通常会导致人们回答错误(图2.2.9)。尽管该论文的一个观察结果是较大的模型往往不太真实,但2024年初发布的GPT-4(RLHF)在TruthfulQA基准测试中取得了迄今为止的最高性能,得分为0.6(图2.2.10)。这一分数比2021年测试的基于GPT-2的模型高出近三倍,表明LLM在提供真实答案方面正变得越来越好。

在这里插入图片描述
在这里插入图片描述

HaluEval

如前所述,LLM容易产生幻觉,这是一个令人担忧的特征,因为它们在法律和医学等关键领域得到了广泛的应用。虽然现有的研究旨在了解幻觉的原因,但很少有人致力于评估LLM幻觉的频率并确定它们特别脆弱的特定内容领域。HaluEval于2023年推出,是一项旨在评估LLM幻觉的新基准。它包括超过35,000个样本,包括幻觉和正常样本,用于LLM的分析和评价(图2.2.11)。研究表明,ChatGPT在大约19.5%的回复中捏造了无法核实的信息,这些捏造涉及语言、气候和技术等各种主题。此外,该研究还考察了当前LLM检测幻觉的能力。图2.2.12显示了领先的LLM在识别各种任务中的幻觉方面的表现,包括回答问题,基于知识的对话和文本摘要。研究结果显示,许多LLM在这些任务中挣扎,强调幻觉是一个重要的持续问题。
在这里插入图片描述
在这里插入图片描述

2.3 Coding

编码涉及计算机可以遵循以执行任务的指令的生成。最近,LLM已经成为熟练的程序员,成为计算机科学家的宝贵助手。越来越多的证据表明,许多程序员发现AI编码助手非常有用。

Generation

在许多编码任务中,人工智能模型面临着生成可用代码或解决计算机科学问题的挑战。

HumanEval

HumanEval是评估人工智能系统编码能力的基准,由OpenAI研究人员于2021年推出。它由164个具有挑战性的手写编程问题组成(图2.3.1)。GPT-4模型变体(AgentCoder)目前在HumanEval性能方面处于领先地位,得分为96.3%,比2022年的最高得分增加了11.2个百分点(图2.3.2)。2021年以来,HumanEval的绩效提升了64. 1个百分点。
在这里插入图片描述
在这里插入图片描述

SWE-bench

随着人工智能系统编码能力的提高,在更具挑战性的任务上对模型进行基准测试变得越来越重要。2023年10月,研究人员推出了SWE-bench,这是一个数据集,包含来自真实的GitHub问题和流行Python存储库的2,294个软件工程问题(图2.3.3)。SWE工作台对人工智能编码能力提出了更严格的测试,要求系统协调多个功能之间的变化、与各种执行环境交互并执行复杂的推理。即使是最先进的LLM也面临着SWE工作台的重大挑战。Claude 2是表现最好的模型,仅解决了数据集4.8%的问题(图2.3.4)。8 2023年,SWE平台上表现最好的模型超过了2022年的最佳模型4.3个百分点。

在这里插入图片描述

2.4 Image Computer Vision and Image Generation

计算机视觉使机器能够理解图像和视频,并根据文本提示或其他输入创建逼真的视觉效果。该技术被广泛应用于自动驾驶、医学成像、视频游戏开发等领域。

Generation

图像生成是生成与真实的图像难以区分的图像的任务。今天的图像生成器是如此先进,以至于大多数人都很难区分人工智能生成的图像和人脸的实际图像(图2.4.1)。图2.4.2突出显示了从2022年到2024年的各种中途模型变体的几代,提示“哈利波特的超现实图像”。这一进展表明,在两年的时间里,Midjourney生成超现实图像的能力有了显著提高。2022年,该模型制作了卡通且不准确的哈利·波特渲染图,但到2024年,它可以创建令人震惊的真实描绘。
在这里插入图片描述
在这里插入图片描述

HEIM: Holistic Evaluation of Text-to-Image Models

人工智能文本到图像系统的快速发展促进了更复杂评估方法的发展。2023年,斯坦福大学的研究人员推出了文本到图像模型的整体评估(HEIM),这是一个基准测试,旨在全面评估图像生成器在12个关键方面对现实世界的部署至关重要,如图像-文本对齐,图像质量和美学。

HEIM的研究结果表明,没有一个模型在所有标准上都表现出色。对于图像到文本对齐的人类评估(评估生成的图像与输入文本的匹配程度),OpenAI的DALL-E 2得分最高(图2.4.3)。在图像质量(衡量图像是否与真实的照片相似)、美学(评估视觉吸引力)和原创性(衡量新图像生成和避免版权侵权的指标)方面,基于稳定扩散的梦幻般的照片真实的模型排名最高(图2.4.4)。
在这里插入图片描述
在这里插入图片描述
HEIM的12个评价方面是:(1)对齐:图像与给定文本的对齐程度如何?(2)质量:生成的图像的质量如何?(3)美学:生成的图像在美学上有多好?(4)原创性:图片的原创性如何?(5)推理:模型是否理解对象、计数和空间关系?(6)知识:模型是否具有关于世界的知识?(7)偏倚:生成的图像是否存在偏倚?(8)毒性:生成的图像是否有毒或不适当?(9)公平性:生成的图像是否表现出性能差异?(10)鲁棒性:模型对输入扰动是否鲁棒?(11)多语言性:该模型是否支持非英语语言?(12)效率:模型推理的速度有多快?

Highlighted Research: MVDream
从文本提示创建3D几何形状或模型对于人工智能研究人员来说一直是一个重大挑战,现有模型难以解决多面Janus问题(文本提示描述的上下文不准确地重新生成)和内容漂移(不同3D视图之间的不一致)等问题。MVDream是由字节跳动和加州大学圣地亚哥分校的研究人员开发的一种新的3D生成系统,它克服了其中的一些障碍(图2.4.5)。在定量评估中,MVDream生成的模型实现了与训练集相当的初始评分(IS)和CLIP评分,表明生成的图像质量很高(图2.4.6)。MVDream具有重大意义,特别是对于3D内容创建传统上耗时且劳动密集型的创意行业。
在这里插入图片描述
在这里插入图片描述

Instruction-Following

在计算机视觉中,注意力跟随是视觉语言模型解释与图像相关的基于文本的指令的能力。例如,人工智能系统可以获得各种成分的图像,并负责建议如何使用它们来准备健康的膳食。有能力的跟随视觉语言模型对于开发高级AI助手是必要的。

VisIT-Bench

2023年,一个由行业和学术研究人员组成的团队推出了VisIT-Bench,这是一个由592个具有挑战性的视觉语言指令组成的基准测试,涉及约70个指令类别,如情节分析、艺术知识和位置理解(图2. 4. 8)。截至2024年1月,VisIT-Bench上的领先模型是GPT-4 Turbo的视觉功能变体GPT-4V,Elo评分为1,349,略高于VisIT-Bench的人类参考评分(图2.4.9)。

在这里插入图片描述
在这里插入图片描述

Editing

图像编辑涉及使用AI根据文本提示修改图像。这种人工智能辅助的方法在工程、工业设计和电影制作等领域有着广泛的现实应用。

EditVal

尽管文本引导的图像编辑有希望,但很少有可靠的方法可以评估人工智能图像编辑器如何准确地遵守编辑提示。EditVal是用于评估文本引导图像编辑的新基准,包括超过13种编辑类型,例如添加对象或更改其位置,跨越19个对象类(图2.4.10)。该基准测试用于评估八种领先的文本引导图像编辑方法,包括SINE和Null-text。自2021年以来,各种基准编辑任务的性能改进如图2.4.11所示。

在这里插入图片描述
在这里插入图片描述

Highlighted Research: ControlNet
调节输入或执行条件控制是指通过指定生成的图像必须满足的某些条件来引导由图像生成器创建的输出的过程。现有的文本到图像模型通常缺乏对图像的空间组成的精确控制,使得难以单独使用提示来生成具有复杂布局、不同形状和特定姿势的图像。通过在额外的图像上训练这些模型来微调这些模型以实现更大的成分控制在理论上是可行的,但是许多专门的数据集,例如用于人类姿势的数据集,并不足以支持成功的训练。2023年,来自斯坦福大学的研究人员引入了一种新模型ControlNet,该模型改进了大型文本到图像扩散模型的条件控制编辑(图2.4.12)。ControlNet因其处理各种条件输入的能力而脱颖而出。与2022年之前发布的其他模型相比,人类评分员更喜欢ControlNet,因为它具有上级质量和更好的条件保真度(图2.4.13)。ControlNet的引入是创建高级文本到图像生成器的重要一步,该生成器能够编辑图像,以更准确地复制真实的世界中经常遇到的复杂图像。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: Instruct-NeRF2NeRF
新模型可以仅使用文本说明编辑3D几何图形。Instruct-NeRF 2NeRF是伯克利研究人员开发的一种模型,它采用图像条件扩散模型进行3D几何形状的迭代文本编辑(图2.4.14)。这种方法可以有效地生成新的、经过编辑的图像,这些图像遵循文本说明,比当前的主要方法实现了更高的一致性(图2.4.15)。
在这里插入图片描述
在这里插入图片描述

Segmentation

分割涉及将单个图像像素分配给特定类别(例如:人,自行车或街道)。

Highlighted Research: Segment Anything
2023年,Meta研究人员推出了Segment Anything,这是一个以Segment Anything Model(SAM)和用于图像分割的广泛SA 1B数据集为特色的项目。SAM是第一个广泛推广的分割模型之一,在新任务和分布上表现良好。Segment Anything在23个分割数据集中的16个上优于RITM等领先的分割方法(图2.4.17)。评估Segment Anything的度量是平均交集对并集(IoU)。然后使用Meta的Segment Anything模型以及人工注释器创建SA-1B数据集,其中包括1100万张图像中的10亿多个分割掩码(图2.4.16)。这种大小的新分割数据集将加速未来图像分割器的训练。Segment Anything展示了人工智能模型如何与人类一起使用,以更有效地创建大型数据集,从而可以用来训练更好的人工智能系统。
在这里插入图片描述
在这里插入图片描述

3D Reconstruction From Images

3D图像重建是从二维图像创建三维数字几何形状的过程。这种类型的重建可以用于医学成像,机器人和虚拟现实。

Highlighted Research: Skoltech3D
数据稀缺通常会阻碍AI系统针对特定任务的开发。2023年,一个国际研究团队引入了一个广泛的新数据集Skoltech3D,用于多视图3D表面重建(图2.4.18)。该数据集包含在14种不同照明条件下从100个不同视点捕获的107个场景的140万张图像,与现有的3D重建数据集相比有了重大改进(图2.4.19)。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: RealFusion
RealFusion是由牛津大学的研究人员开发的一种新方法,用于从单个图像生成完整的物体3D模型,克服了单个图像信息不足的挑战。RealFusion利用现有的2D图像生成器生成对象的多个视图,然后将这些视图组装成一个全面的360度模型(图2.4.20)。与2021年的最先进方法(Shelf-Supervised)相比,该技术在广泛的对象范围内产生更准确的3D重建(图2.4.21)。
在这里插入图片描述
在这里插入图片描述

2.5 Video Computer Vision and Video Generation

Generation

视频生成涉及使用AI从文本或图像生成视频。

UCF101

UCF 101是包含101个动作类别的真实动作视频的动作识别数据集(图2.5.1)。最近,UCF 101被用于对视频生成器进行基准测试。今年的顶级模型W. A.L. T-XL的FVD 16得分为36分,是上一年最先进模型得分的一半多(图2.5.2)。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: Align Your Latents
大多数现有的方法只能创建短的,低分辨率的视频。为了解决这一限制,一个国际研究团队应用了传统上用于生成高质量图像的潜在扩散模型来生成高分辨率视频(图2.5.3)。他们的潜在扩散模型(LDM)在分辨率质量方面明显优于2022年发布的先前最先进的方法,如长视频GAN(LVG)(图2.5.4)。文本到图像架构的适应性创建LDM,一种高效的文本到视频模型,证明了如何在计算机视觉的不同领域重新利用先进的人工智能技术。LDM强大的视频生成功能具有许多现实应用,例如创建逼真的驾驶模拟。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: Emu Video
传统上,视频生成的进展落后于图像生成,因为其复杂性更高,可用于训练的数据集更小。由Meta研究人员创建的新的基于transformer的视频生成模型Emu Video代表了一个重要的进步(图2.5.5)。Emu Video从文本生成图像,然后基于文本和图像创建视频。图2.5.6显示了Emu视频模型优于先前发布的最先进视频生成方法的程度。该指标是当人类评估者更喜欢Emu Video的图像质量或忠实于文本指令时,与比较方法相比的情况比例。Emu Video简化了视频生成过程,标志着高质量视频生成的新时代。
在这里插入图片描述
在这里插入图片描述

2.6 Reasoning

人工智能中的推理涉及人工智能系统从不同形式的信息中得出逻辑上有效的结论的能力。人工智能系统越来越多地在不同的推理环境中进行测试,包括视觉(关于图像的推理),道德(理解道德困境)和社会推理(导航社会情境)。

General Reasoning

一般推理涉及AI系统能够跨广泛而非特定领域进行推理。例如,作为一般推理挑战的一部分,人工智能系统可能会被要求跨多个主题进行推理,而不是执行一个狭窄的任务(例如,下棋)。

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

近年来,人工智能系统的推理能力已经取得了很大的进步,以至于SQuAD(用于文本推理)和VQA(用于视觉推理)等传统基准已经饱和,这表明需要更具挑战性的推理测试。

针对这一点,来自美国和加拿大的研究人员最近开发了MMMU,即专家AGI的大规模多学科多模式理解和推理基准。MMMU包括来自六个核心学科的约11,500个大学水平的问题:艺术与设计,商业,科学,健康与医学,人文与社会科学,技术与工程(图2.6.1)。问题格式包括图表,地图,表格,化学结构等。MMMU是迄今为止人工智能中对感知、知识和推理要求最高的测试之一。截至2024年1月,性能最高的模型是Gemini Ultra,它在所有主题类别中领先,总得分为59.4%(图2.6.2)。11在大多数单个任务类别中,顶级模型仍然远远超过中等水平的人类专家(图2.6.3)。这个相对较低的分数证明了MMMU作为评估AI推理能力的基准的有效性。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

GPQA: A Graduate-Level Google-Proof Q&A Benchmark

去年,来自纽约大学、Anthropic和Meta的研究人员引入了GPQA基准测试来测试通用的多学科AI推理。该数据集由448个难以通过Google搜索回答的选择题组成。这些问题由生物学、物理学和化学等各个领域的专家精心设计(图2.6.4)。在GPQA中,博士级专家在各自领域的准确率达到65%,而非专家的准确率约为34%。表现最好的AI模型GPT-4在主测试集上的得分仅为41.0%(图2.6.5)。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: Comparing Humans, GPT-4, and GPT-4V on Abstraction and Reasoning Tasks
抽象推理涉及使用已知信息来解决不熟悉和新颖的问题,是人类认知的一个关键方面,即使在幼儿中也很明显。虽然最近的LLM(如GPT-4)表现出令人印象深刻的性能,但它们的真正抽象推理能力仍然是一个激烈争论的主题。13为了进一步探索这个主题,圣达菲研究所的研究人员在ConceptARC基准上测试了GPT-4,这是一组旨在评估一般抽象推理技能的类比谜题(图2.6.6)。研究表明,GPT-4在抽象推理能力方面显着落后于人类:虽然人类在基准测试中得分为95%,但最好的GPT-4系统的得分仅为69%(图2.6.7)。真正通用AI的开发需要抽象推理能力。因此,必须继续跟踪这一领域的进展情况。
在这里插入图片描述
在这里插入图片描述

Mathematical Reasoning

数学问题解决基准评估AI系统的数学推理能力。AI模型可以用一系列数学问题进行测试,从小学水平到竞赛标准数学。

GSM8K

GSM 8 K是一个包含大约8,000个不同的小学数学应用题的数据集,它要求AI模型利用算术运算开发多步解决方案(图2.6.8)。GSM 8 K已迅速成为评估高级LLM的首选基准。GSM 8 K上表现最好的模型是GPT-4变体(GPT-4代码解释器),其准确率为97%,比上一年的最新水平提高了4.4%,比2022年首次引入基准测试时提高了30.4%(图2.6.9)。

在这里插入图片描述
在这里插入图片描述

MATH

MATH是由加州大学伯克利分校研究人员在2021年引入的12,500个具有挑战性的竞赛级数学问题的数据集(图2.6.10)。当数学首次发布时,人工智能系统在数学上表现不佳,只能解决6.9%的问题。业绩显著改善。2023年,基于GPT-4的模型发布了最佳结果,成功解决了数据集84.3%的问题(图2.6.11)。
在这里插入图片描述
在这里插入图片描述

PlanBench

规划系统接收指定的目标、初始状态和动作集合。每个动作都由要执行的动作必须满足的前提条件和动作执行的结果定义。系统构建一个计划,包括一系列行动,以从初始状态实现目标。有人声称LLM可以解决规划问题。来自亚利桑那州立大学的一个小组提出了PlanBench,这是一个基准套件,包含了自动规划社区中使用的问题,特别是国际规划竞赛中使用的问题。他们在Blocksworld域中的600个问题上测试了I-GPT-3和GPT-4(当一只手试图构建一堆块时,它一次只允许将一块移动到桌子上或移动到一个干净的块的顶部),并显示GPT-4可以在大约34%的时间内生成正确的计划和成本最优的计划,I-GPT-3约为6%(图2.6.12)。确认计划的正确性比较容易。

在这里插入图片描述

Visual Reasoning

视觉推理测试AI系统在视觉和文本数据上的推理能力。

Visual Commonsense Reasoning (VCR)

视觉常识推理(VCR)挑战赛于2019年推出,测试人工智能系统的常识视觉推理能力。在这个挑战中,人工智能系统不仅根据图像回答问题,而且还对答案背后的逻辑进行推理(图2.6.13)。VCR中的性能使用Q->AR评分来衡量,该评分评估机器选择问题的正确答案(Q->A)和选择答案背后的适当理由(Q->R)的能力。虽然人工智能系统在这项任务上的表现还没有超过人类,但它们的能力正在稳步提高。在2022年至2023年期间,VCR挑战的AI性能增加了7.93%(图2.6.14)。
在这里插入图片描述
在这里插入图片描述

Moral Reasoning

未来,人工智能将越来越多地应用于伦理考虑至关重要的领域,例如医疗保健和司法系统。因此,人工智能系统必须拥有强大的道德推理能力,使它们能够有效地导航和推理道德原则和道德考虑。

MoCa

人工智能模型在语言和视觉领域的推理能力已经得到了很好的建立,但它们的道德推理能力,特别是与人类道德判断一致的道德推理能力,还不太被理解。14为了进一步探讨这个话题,斯坦福大学的一个研究小组创建了一个新的具有道德元素的人类故事数据集(莫卡)(图2.6.15)。然后,研究人员向这些模型展示了人类行为的故事,并促使模型做出回应,用离散一致性度量来衡量道德一致性:分数越高,表明与人类道德判断的一致性越高。这项研究产生了有趣的结果。没有模型能完美地匹配人类的道德体系,但像GPT-4和Claude这样的更新、更大的模型比像GPT-3这样的较小模型更符合人类的道德情感,这表明随着人工智能模型的规模扩大,它们在道德上逐渐与人类保持一致。在调查的所有模型中,GPT-4显示出与人类道德情感的最大一致性(图2.6.16)。
在这里插入图片描述
在这里插入图片描述

Causal Reasoning

因果推理评估AI系统理解因果关系的能力。随着人工智能变得越来越普遍,评估人工智能模型是否不仅可以解释其输出,而且还可以更新其结论-因果推理的关键方面变得非常重要。

BigToM

评估LLM是否具有心理理论(ToM)能力-理解和归因于心理状态,如信念,意图和情感-传统上挑战了人工智能研究人员。早期的方法来评估理论在LLM是不够的,缺乏鲁棒性。为了解决这个问题,研究人员在2023年开发了一个名为BigToM的新基准,旨在评估LLM的社会和因果推理能力。BigToM由25个控件和5,000个模型生成的评估组成,已被人工评估人员评为优于现有ToM基准的上级。BigToM测试了LLM的前向信念(预测未来事件)、前向行动(基于未来事件预测采取行动)和后向信念(追溯性地推断行动的原因)(图2.6.17)。在LLM的基准测试中,GPT-4表现最好,ToM能力接近但没有超过人类水平(图2.6.18、图2.6.19和图2.6.20)。更具体地说,通过正确推断信念的准确性来衡量,GPT-4在向前信念和向后信念任务中与人类的表现非常接近,在向前行动任务中略高于人类。重要的是,该研究表明,LLM在ToM基准测试中的性能呈上升趋势,像GPT 4这样的新模型的性能优于GPT-3.5(2022年发布)等前辈。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Highlighted Research: Tübingen Cause-Effect Pairs
来自微软和芝加哥大学的研究人员已经证明,LLM是有效的因果推理机。该团队使用图宾根因果对数据集评估了几个最近的LLM,包括GPT 4。该基准测试包括37个子学科的100多个因果对,测试人工智能系统识别因果关系的能力(图2.6.21)。GPT 4的准确率为96%,比去年的最佳成绩高出13个百分点(图2.6.22)。值得注意的是,GPT-4的表现优于先前基于协方差的AI模型,后者是针对因果推理任务进行明确训练的。此外,研究人员发现,某些提示,特别是那些旨在鼓励帮助,可以显着提高LLM的因果推理能力。
在这里插入图片描述
在这里插入图片描述

2.7 Audio

人工智能系统擅长处理人类语音,具有音频功能,包括将口语转录为文本和识别单个说话者。最近,人工智能在生成合成音频内容方面取得了进展。

Generation

2023年是音频生成领域的重要一年,涉及创建从人类语音到音乐文件的合成音频内容。这一进步突出了几个著名的音频生成器的发布,如UniAudio,MusicGen和MusicLM。

Highlighted Research: UniAudio
UniAudio是一种用于创建音频内容的高级语言建模技术。UniAudio统一标记所有音频类型,并像现代LLM一样,采用下一个标记预测来生成高质量音频。UniAudio能够生成高质量的语音、声音和音乐。UniAudio在任务中超越了领先的方法,包括文本到语音,语音增强和语音转换(图2.7.1)。凭借10亿个参数和165,000小时的音频训练,UniAudio证明了大数据和自我监督对音乐生成的有效性。
在这里插入图片描述

Highlighted Research: MusicGEN and MusicLM
Meta的MusicGen是一种新颖的音频生成模型,它还利用了语言模型中常见的Transformer架构来生成音频。MusicGen使用户能够为所需的音频结果指定文本,然后使用特定的旋律对其进行微调。在比较研究中,MusicGen在各种生成音乐指标方面胜过其他流行的文本到音乐模型,例如Riffusion、Moâ sai和MusicLM。它拥有较低的FAD分数,表明更合理的音乐生成,较低的KL分数,更好地与参考音乐对齐,以及较高的CLAP分数,反映了对参考音乐文本描述的更大坚持(图2.7.2)。人类评估者也喜欢MusicGen的整体质量(OVL)。尽管MusicGen的表现优于今年早些时候发布的某些文本到音乐模型,但MusicLM值得强调,因为它的发布伴随着MusicCaps的推出,这是一个最先进的5.5K音乐文本对数据集。MusicGen的研究人员使用MusicCaps来衡量其模型家族的性能。像MusicGen这样的新模型以及像MusicCaps这样的新音乐到文本基准的出现,凸显了生成式人工智能从语言和图像扩展到更多样化的技能模式,如音频生成。
在这里插入图片描述

2.8 Agents

人工智能代理,设计用于在特定环境中运行以实现目标的自主或半自主系统,代表了人工智能研究中令人兴奋的前沿。这些代理具有各种各样的潜在应用,从协助学术研究和安排会议到促进在线购物和度假预订。

General Agents

本节重点介绍了基准和研究代理,可以灵活地在一般的任务环境中操作。

AgentBench

AgentBench是一个新的基准,旨在评估基于LLM的代理,包括八个不同的交互式设置,包括网页浏览,在线购物,家庭管理,拼图和数字纸牌游戏(图2.8.1)。该研究评估了超过25个基于LLM的代理,包括基于OpenAI的GPT-4,Anthropic的Claude 2和Meta的Llama 2构建的代理。GPT-4表现最佳,总分为4.01,明显高于Claude 2的2.49分(图2.8.2)。研究还表明,2023年发布的LLMs在代理环境中的表现优于早期版本。此外,AgentBench团队推测,代理在某些基准子部分上的挣扎可以归因于他们在长期推理,决策和预防跟踪方面的能力有限。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: Voyageur
Nvidia,Caltech,UT Austin,斯坦福大学和UW麦迪逊最近的研究表明,现有的LLM(如GPT-4)可用于开发能够持续学习的灵活代理。该团队为Minecraft创建了Voyager,这是一个基于GPT-4的代理,Minecraft是一个复杂的视频游戏,没有设置端点,本质上是一个无限的虚拟游乐场(图2.8.3)。旅行者号在这种环境中表现出色,熟练地记住计划,适应新的环境,并传递知识。它的性能明显优于以前的模型,收集的独特项目是以前的3.3倍,旅行距离是以前的2.3倍,达到关键里程碑的速度是以前的15.3倍(图2.8.4)。
Voyager的推出意义重大,因为人工智能研究人员长期以来一直面临着创建可以在开放式世界中探索,计划和学习的代理的挑战。虽然像AlphaZero这样的人工智能系统在国际象棋、围棋和将棋等封闭的、规则定义的环境中取得了成功,但它们在更动态的环境中挣扎,缺乏持续学习的能力。然而,Voyager在动态视频游戏设置方面表现出了非凡的能力,从而代表了人工智能领域的显着进步。
在这里插入图片描述
在这里插入图片描述

Task-Specific Agents

本节重点介绍了基准测试和对代理的研究,这些代理被优化以在特定的任务环境中执行,例如数学问题解决或学术研究。

MLAgentBench

MLAgentBench是评估AI研究代理性能的新基准,它测试AI代理是否能够参与科学实验。更具体地说,MLAgentBench评估了人工智能系统作为计算机科学研究助理的潜力,评估了它们在15个不同研究任务中的表现。这些任务的例子包括改进CIFAR-10图像数据集的基线模型,以及在BabyLM中训练超过1000万个单词的语言模型。测试了各种基于LLM的试剂,包括GPT-4、Claude-1、AutoGPT和LangChain。结果表明,尽管人工智能研究代理有希望,但不同任务的性能差异很大。虽然一些智能体在ogbnarxiv(改进基线论文分类模型)等任务上的得分超过80%,但在BabyLM(训练小型语言模型)上的得分均为0%(图2.8.5)。其中,GPT-4始终提供最佳结果。
在这里插入图片描述
全部任务包括:(1)CIFAR-10(改进基线图像分类模型),(2)imdb(改进基线情感分类模型),(3)ogbn-arxiv(从零开始改进基线纸分类模型),(4)房价(训练回归模型),(5)泰坦尼克号飞船(从头开始训练分类器模型),(6)帕金森病(训练时间序列回归模型),(7)FathomNet(训练分布外图像分类模型),(8)反馈(训练分布外文本回归模型),(9)识别轨迹(训练分布外图像分割模型),(10)CLRS(在图和列表上对经典算法建模),(11)BabyLM(训练超过1000万个单词的语言模型),(12)llama-inference(提高Llama 7 B的运行时/自回归生成速度,(13)矢量化(提高模型的推理速度)、(14)文献综述工具(执行文献综述)和(15)Bibtex生成(从草图生成Bibtex)。

2.9 Robotics

随着时间的推移,人工智能越来越多地融入机器人技术,增强了机器人执行复杂任务的能力。特别是随着基础模型的兴起,这种集成使机器人能够反复地从周围环境中学习,灵活地适应新的设置,并做出自主决策。

Highlighted Research: PaLM-E
PaLM-E是谷歌的一种新的人工智能模型,它将机器人技术与语言建模相结合,以解决机器人操作等现实任务以及问答和图像字幕等知识任务。利用基于变压器的架构,最大的PaLM-E模型可扩展到562 B参数。该模型在不同的视觉语言以及机器人数据上进行训练,从而在各种机器人基准测试中获得上级性能。PaLM-E还为OK-VQA等视觉任务设定了新的标准,在其他语言任务中表现出色,即使没有这些领域的特定培训,也可以进行思维链,数学和多图像推理。图2.9.1说明了PaLM-E模型可以执行的一些任务。在机器人必须操纵物体的任务和运动规划(TAMP)领域,PaLM-E在具体的视觉问题回答和规划方面都优于以前的最先进的方法,如SayCan和帕利(图2.9.2)16在机器人操作任务中,PaLM-E优于竞争模型(帕利和CLIP-FT)检测故障的能力,这是机器人执行闭环规划的关键步骤(图2.9.3)。PaLM-E的重要性在于它证明了语言建模技术和文本数据可以增强人工智能系统在非语言领域(如机器人)的性能。PaLM-E还强调了已经有语言熟练的机器人能够进行现实世界的互动和高级推理。开发这种多功能机器人是创造更通用的机器人助手的重要一步,例如,可以帮助做家务。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: RT-2
现实世界的机器人可以从LLM拥有的某些功能中受益,例如文本和代码生成以及视觉理解。RT-2是DeepMind发布的一款新机器人,它代表了一种雄心勃勃的尝试,即创建一个具有一定LLM功能的通用机器人模型。RT-2使用基于transformer的架构,并在标记为文本的机器人轨迹数据和大量的视觉语言数据上进行训练。RT-2是调节机器人策略的最令人印象深刻和适应性最强的方法之一。它在各种基准测试中超越了最先进的模型,如开放世界对象操作(MOO),特别是在涉及不可见对象的任务中。在这些任务中,RT-2/PaLM-E变体实现了80%的成功率,显著高于MOO(53%)(图2.9.4)。在看不见的物体任务中,RT-2超过了前一年的最先进型号RT-1 43个百分点。这表明随着时间的推移,机器人在新环境中的性能有所改善。
在这里插入图片描述

2.10 Reinforcement Learning

在强化学习中,人工智能系统通过从先前的动作中交互式学习来训练,以最大限度地提高给定任务的性能。如果系统实现了预期的目标,则会受到奖励,如果失败,则会受到惩罚。

Reinforcement Learning from Human Feedback

强化学习在增强GPT-4和Llama 2等最先进的语言模型方面越来越受欢迎。2017年推出的来自人类反馈的强化学习(RLHF)将人类反馈纳入奖励函数,使模型能够被训练以获得有用和无害等特征。今年,AI指数跟踪了使用RLHF作为训练一部分的基础模型数量的数据。更具体地说,索引团队查看了CRFM的生态系统图中包含的所有模型的技术报告和其他文档,CRFM的生态系统图是基础模型生态系统最全面的存储库之一。17图2.10.1显示了随着时间的推移,有多少基础模型使用RLHF。2021年,没有新发布的基础模型使用RLHF。2022年,7款模型报告使用RLHF,2023年,16款模型报告使用RLHF。RLHF越来越受欢迎,这一事实也证明了许多领先的LLM报告使用RLHF改进了他们的模型(图2.10.2)。

在这里插入图片描述
在这里插入图片描述

Highlighted Research: RLAIF
RLHF是一种用于对齐AI模型的强大方法,但可能会受到生成用于模型对齐的人类偏好数据集所需的时间和劳动力的阻碍。作为替代方案,来自AI反馈的强化学习(RLAIF)使用基于LLM偏好的强化学习来使其他AI模型与人类偏好保持一致。Google Research最近的研究将RLAIF与传统的黄金标准RLHF进行了比较,以评估RLAIF是否可以作为可靠的替代品。研究发现,在总结和帮助任务中,RLAIF和RLHF都优于监督微调(SFT),并且RLHF的偏好程度在统计学上没有显著差异(图2.10.3)。值得注意的是,在专注于产生最小有害输出的无害对话生成任务中,RLAIF(88%)的有效性超过RLHF(76%)(图2.10.4)。这项研究表明,RLAIF可能是一种更具资源效率和成本效益的AI模型对齐方法。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: Direct Preference Optimization
如上所述,RLHF是用于将LLM与人类偏好对齐的有用方法。然而,RLHF需要大量的计算资源,包括多语言模型的训练和在训练循环中集成LM策略采样。这种复杂性可能会阻碍其更广泛的采用。作为回应,来自斯坦福大学和CZ Biohub的研究人员开发了一种新的强化学习算法,用于对齐模型,名为直接偏好优化(DPO)。DPO比RLHF简单,但同样有效。研究人员表明,DPO与其他现有的对齐方法一样有效,例如最近策略优化(PPO)和监督微调(SFT),在总结等任务上(图2.10.5)。像DPO这样的技术的出现表明,模型对齐方法变得更加简单和容易。
在这里插入图片描述

2.11 Properties of LLMs

本节侧重于探索LLM的关键特性的研究,例如它们在推理中突然行为转变和自我纠正的能力。重要的是要强调这些研究,以了解LLM如何运作和行为,LLM越来越代表人工智能研究的前沿。

Highlighted Research: Challenging the Notion of Emergent Behavior
许多论文认为,LLM表现出涌现的能力,这意味着它们可以在更大的尺度上不可预测地突然显示新的能力。然而,斯坦福大学的研究对这一概念提出了挑战,认为新能力的出现往往反映了用于评估的基准,而不是模型本身的固有属性。研究人员发现,当使用非线性或不连续的指标(如多项选择评分)来评估模型时,涌现能力似乎更明显。相反,当采用线性或连续度量时,这些能力基本上消失了。通过分析BIGbench(一种综合的LLM评估工具)的一套基准测试,研究人员在39个基准测试中只注意到了5个(图2.11.1)。这些发现对人工智能的安全性和一致性研究具有重要意义,因为它们挑战了一种普遍的信念,即人工智能模型在扩展时将不可避免地学习新的、不可预测的行为。
在这里插入图片描述

Highlighted Research: Changes in LLM Performance Over Time
公开可用的封闭源代码的LLM,如GPT-4、Claude 2和Gemini,通常由其开发人员随着时间的推移进行更新,以响应新的数据或用户反馈。但是,很少有研究表明,这些模型的性能如何随着更新而变化(如果有的话)。斯坦福大学和伯克利大学进行的一项研究探索了某些公共可用的LLM随时间推移的性能,并强调了事实上,它们的性能可以有很大的变化。更具体地说,该研究比较了2023年3月和6月的GPT-3.5和GPT-4,结果表明,在几项任务上,成绩有所下降。例如,6月版的GPT-4与3月版的GPT-4相比,在生成代码方面差了42个百分点,在回答敏感问题方面差了16个百分点,在某些数学任务方面差了33个百分点(图2.11.2)。研究人员还发现,GPT-4遵循指令的能力随着时间的推移而减弱,这可能解释了更广泛的表现下降。这项研究强调了LLM的性能可以随着时间的推移而变化,并建议经常使用LLM的用户应该注意这些变化。
在这里插入图片描述

Highlighted Research: LLMs Are Poor Self-Correctors
人们普遍认为,像GPT-4这样的LLM具有推理限制,有时会产生幻觉。针对这些问题提出的一个解决方案是自我纠正,即LLM识别并纠正自己的推理缺陷。随着人工智能社会角色的增长,内在自我纠正的概念-允许LLM在没有外部指导的情况下自主纠正他们的推理-特别有吸引力。然而,目前还不清楚LLM是否真的能够进行这种自我校正。DeepMind和伊利诺伊大学厄巴纳-香槟分校的研究人员在三个推理基准上测试了GPT-4的性能:GSM 8 K(小学数学),CommonSenseQA(常识推理)和HotpotQA(多文档推理)。他们发现,当模型在没有指导的情况下决定自我校正时,其性能在所有测试基准中都有所下降(图2.11.3)。
在这里插入图片描述

Closed vs. Open Model Performance

随着LLM变得越来越普遍,关于其不同程度的可访问性的争论也越来越激烈。一些模型,如Google的Gemini仍然是封闭的,只对他们的开发人员开放。相比之下,像OpenAI的GPT-4和Anthropic的Claude 2这样的模型提供有限的访问,通过API公开提供。然而,模型权重并没有完全公布,这意味着模型不能被公众独立修改或进一步审查。相反,Meta的Llama 2和Stability AI的Stable Diffusion采用开放的方式,完全释放了它们的模型权重。任何人都可以修改和自由使用开源模型。对于封闭式与开放式AI模型的优点,观点各不相同。有些人支持开放模型,理由是它们能够抵消市场集中,促进第2章:技术性能19封闭模型,人工智能指数指的是完全封闭的模型和那些有限的访问。20本节数据于2024年1月初收集。2.11 LLM创新的特性,并提高人工智能生态系统内的透明度。另一些人则认为,开放源码模式存在相当大的安全风险,例如为制造虚假信息或生物武器提供便利,因此应谨慎对待。在这场辩论的背景下,重要的是要认识到,目前的证据表明,开放和封闭模型之间存在显着的性能差距。19图2.11.4和2.11.5并列了顶级封闭与开放模型在选定的基准上的表现。20在所有选定的基准上,封闭模型的表现优于开放模型。具体来说,在10个选定的基准测试中,封闭模型的平均性能优势为24.2%,差异范围从GSM 8 K等数学任务的4.0%到AgentBench等代理任务的317.7%。

在这里插入图片描述
在这里插入图片描述

2.12 Techniques for LLM Improvement

随着LLM使用的增加,正在寻求提高其性能和效率的技术。本节审查其中一些进展。

Prompting

人工智能流水线的一个重要方面,就是为模型提供自然语言指令,这些指令描述了模型应该执行的任务。掌握制作有效提示的艺术可以显著提高LLM的性能,而不需要模型进行底层改进。

Highlighted Research: Graph of Thoughts Prompting
思维链(CoT)和思维树(ToT)是可以提高LLM在推理任务上的性能的提示方法。2023年,欧洲研究人员引入了另一种激励方法,即思维图(GoT),该方法也显示出了希望(图2.12.1)。GoT使LLM能够以更灵活的图形结构来模拟他们的思想,更接近于反映实际的人类推理。然后,研究人员设计了一个模型架构来实现GoT,并发现与ToT相比,它将排序任务的输出质量提高了62%,同时降低了约31%的成本(图2.12.2)。
在这里插入图片描述
在这里插入图片描述

Highlighted Research: Optimization by PROmpting (OPRO)
DeepMind的一篇论文介绍了Prompting优化(OPRO),这是一种使用LLM迭代生成提示以提高算法性能的方法。OPRO使用自然语言指导LLM根据问题描述和以前的解决方案创建新提示(图2.12.3)。生成的提示旨在增强AI系统在特定基准上的性能。与“让我们一步一步地思考”或空起点等其他提示方法相比,ORPO在几乎所有23个BIG-bench Hard任务上都能显著提高准确性(图2.12.4)。
在这里插入图片描述
在这里插入图片描述

Fine-Tuning

微调作为一种增强LLM的方法越来越受欢迎,并涉及在较小的数据集上进一步训练或调整模型。微调不仅提高了整体模型的性能,还提高了模型在特定任务上的能力。它还允许更精确地控制模型的行为。

Highlighted Research: QLoRA
QLoRA由华盛顿大学的研究人员于2023年开发,是一种更有效的模型微调新方法。它大大减少了内存使用,使650亿参数模型的微调在一个单一的48 GB的GPU,同时保持完整的16位微调性能。从这个角度来看,微调65B Llama模型,一个领先的开源LLM,通常需要大约780 GB的GPU内存。因此,QLoRA的效率提高了近16倍。QLoRA设法通过4位NormalFloat(NF 4),双量化和页面优化器等技术提高效率。QLoRA用于训练一个名为Guanaco的模型,该模型在维库纳基准测试(对LLM的输出进行排名的基准测试)中的性能与ChatGPT等模型相匹配,甚至超过了ChatGPT等模型(图2.12.5)。值得注意的是,Guanaco模型仅在单个GPU上进行了24小时的微调。QLoRa强调了优化和进一步改进模型的方法如何变得更加有效,这意味着需要更少的资源来制作功能越来越强的模型。
在这里插入图片描述

Attention

LLM可以灵活地处理各种任务,但通常需要大量的计算资源来训练。如前所述,高昂的培训成本可能会阻碍人工智能的广泛采用。优化方法旨在提高AI的效率,例如,提高内存使用率,从而使LLM更容易访问和实用。

Highlighted Research: Flash-Decoding
由斯坦福大学的研究人员开发的闪光解码,通过加速注意力机制,特别是在需要长序列的任务中,解决了传统LLM的低效率问题。它通过并行加载键和值来实现这一点,然后分别重新缩放和组合它们以保持正确的注意力输出(图2.12.6)。在各种测试中,Flash-Decoding优于其他领先的方法,如PyTorch Eager和FlashAttention-2,显示出更快的推理:例如,在256批大小和256序列长度上,Flash-Decoding比PyTorch Eager快48倍,比FlashAttention-2快6倍(图2.12.7)。像ChatGPT这样的模型的推理每个响应的成本为0.01美元,当将这些模型部署到数百万用户时,这可能会变得非常昂贵。像Flash解码这样的创新对于降低AI的推理成本至关重要。
在这里插入图片描述
在这里插入图片描述

2.13 Environmental Impact of AI Systems

本节探讨了人工智能系统对环境影响的趋势,强调了透明度和意识的不断发展。从历史上看,模型开发人员很少披露其人工智能系统的碳足迹,让研究人员做出最佳估计。最近,有一种向更大开放性的转变,特别是在训练人工智能模型的碳成本方面。然而,披露的环境成本与推断-一个潜在的更重要的问题-仍然不够。本节介绍了开发人员报告的碳排放数据,以及探索人工智能与环境影响交叉点的著名研究。随着人工智能模型的规模越来越大,应用越来越广泛,人工智能研究界努力监测和减轻人工智能系统对环境的影响变得前所未有的重要。

General Environmental Impact

Training

图2.13.1显示了与人类参考点相比,选定的LLM在训练期间释放的碳(以吨为单位)。标有星号的模型的排放数据是由独立研究人员估计的,因为它们的开发者没有披露。排放数据差异很大。例如,Meta的Llama 2 70 B模型释放了大约291.2吨碳,这几乎是一名旅行者从纽约到弗朗西斯科的往返航班所释放的碳排放量的291倍,大约是一名普通美国人一年中所排放的碳量的16倍。Llama 2的排放量仍然低于OpenAI的GPT-3训练期间报告的502吨。
在这里插入图片描述
排放估计的差异是由于模型大小、数据中心能效和能源网格的碳强度等因素造成的。图2.13.2显示了选定模型的排放量与其尺寸的关系。一般来说,较大的模型排放更多的碳,这一趋势在Llama 2模型系列中清晰可见,这些模型都是在同一台超级计算机(Meta的研究超级集群)上训练的。然而,如果在由效率较低的能源供电的能源网上训练,较小的模型仍然可能具有高排放。一些估计表明,随着时间的推移,模型排放量有所下降,这可能与模型培训机制的效率越来越高有关。图2.13.3显示了所选型号的排放量及其功耗沿着。

在这里插入图片描述
在这里插入图片描述

评估人工智能模型对环境影响的一个主要挑战是排放缺乏透明度。与其他研究的结果一致,大多数著名的模型开发者没有报告碳排放量,阻碍了对这一指标进行全面和准确评估的努力。22例如,许多著名的模型开发者,如OpenAI,Google,Anthropic和Mistral,没有报告培训中的排放量,尽管Meta有。

Inference

如前所述,训练人工智能模型对环境的影响可能很大。虽然推理的perquery排放可能相对较低,但当模型每天被查询数千次(如果不是数百万次)时,总的影响可能超过训练。从模型推断的排放量的研究很少。Luccioni等人的研究,该报告于2023年发布,是第一批通过模型推断全面评估排放量的报告之一。图2.13.4展示了不同模型任务中1,000个推断的排放量,揭示了图像生成等任务的碳足迹比文本分类高得多。
在这里插入图片描述

Positive Use Cases

尽管人们普遍认为训练人工智能系统会带来环境成本,但人工智能可以为环境可持续性做出积极贡献。图2.13.5展示了人工智能支持环境工作的各种最新案例。这些应用包括加强热能系统管理、改善害虫控制策略和提高城市空气质量。
在这里插入图片描述

以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!

如有侵权,请联系我删除。xingyezn@163.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值