2021 AI年度报告-stateof.ai出品【1】_stateof.ai发布了一份人工智能状况报告-CSDN博客

一、简介

stateof.ai 出品的2021 AI年度报告，其中包含了五点重要的总结：
1：Research：2021年的AI重要科研进展回顾
2：Talent：AI人才的市场供需情况
3：Industry：AI在商业上的不同尝试
4：Politics：AI在政策上、经济上的影响
5：Predictions：接下来一年的AI进展预测
这份188页的PPT报告由知名风投公司Air Street Capital的合伙人Nathan Benaich和投资了100+初创公司的天使投资人Ian Hogarth联合撰写，该系列报告从2018年开始已经连续撰写了4年。除了两位主要作者外，还有众多研究者、机构以及reviewer把关，既有深度又有广度，涵盖了AI的方方面面。

在这里插入图片描述

1.1定义

Artificial intelligence (AI): 一个以创造智能机器为目标的广泛学科，而不是由人类和动物证明的自然智能。它已经成为一个包涵一切的术语，尽管如此，它还是抓住了该领域的长期雄心，即制造能够模仿并超越人类认知范围的机器。
Machine learning (ML): 人工智能的一个子集，它经常使用统计技术，让机器能够从数据中“学习”，而不需要明确地给出如何这样做的指令。这个过程被称为使用学习“算法”对“模型”进行“训练”，逐步提高模型在特定任务中的性能。
Reinforcement learning (RL): ML的一个领域，它与开发软件代理有关，该软件代理在一个环境中通过尝试和错误来学习面向目标的行为，该环境提供奖励或惩罚来响应代理的行动(称为“策略”)以实现该目标。
Deep learning (DL): ML的一个区域，试图模仿大脑神经元层的活动，学习如何识别数据中的复杂模式。深度学习中的“深度”指的是当代ML模型中的大量神经元层，这些神经元层有助于学习丰富的数据表示，以获得更好的性能增益。
Algorithm: 关于如何解决特定问题的明确说明。
Model: 一旦ML算法对数据进行了训练，该过程的输出被称为模型。这可以用来进行预测。
Supervised learning: 一个模型试图学习使用标记的例子将一种数据转换为另一种数据。这是当今最常见的ML算法。
Unsupervised learning: 模型试图学习数据集的结构，通常在没有任何显式标签的情况下寻找数据中的潜在分组。无监督学习的输出通常会在以后的点上为有监督学习算法提供输入。
Transfer learning: 一种建模方法，利用在一个问题中获得的知识引导另一个不同的或相关的问题，从而减少对大量额外训练数据的需要和/或提高性能。
Natural language processing (NLP): 使机器能够分析、理解和操作人类语言。
Computer vision(CV): 使机器能够分析、理解和处理图像和视频。

1.2 摘要

Research

Transformer架构已经远远超出了NLP的范围，并正在成为机器学习的通用架构。
大型语言模型(LLM)正处于扩展阶段，已经“国有化”，每个国家都想拥有自己的LLM。
人工智能优先的方法已经席卷了结构生物学:蛋白质和RNA(细胞机械)正被高保真模拟。
随着研究效率的提高/研究人员成为一流公民，JAX作为一个流行的ML框架应运而生。

talent

中国的大学已经从1980年没有人工智能研究成果的发表激增到今天数量最多的高质量人工智能研究成果。
随着大型科技公司与精英大学(而非低层次大学)合作，人工智能研究的去民主化仍在继续。
学术团体很难在计算资源上竞争，而88%的顶尖人工智能教师获得了大型科技公司的资助。

Industry

人工智能和数据公司生态系统已显著成熟，大量ipo，标志着人工智能进入部署阶段。
两家主要的人工智能药物研发公司完成了临床药物的首次公开发行，进一步验证了它们的潜力。
AI优先产品部署在高风险的用例中:英国国家电网(能源)、员工健康和安全以及仓库。
社区重新关注影响模型生产性能的数据问题(偏差、漂移、规格、标签等)。
随着各国寻求供应链主权，以及英伟达收购Arm的调查，半导体相关企业大幅加速。

Politics

AI现在真的是一场军备竞赛:自动武器已经被部署在战场上，并定期进行更多的测试。
AI安全现在是最重要的，但在主要人工智能实验室全职工作的研究人员不到50人。
AI治理的新实验出现:完全分布式+开源、私有+开源、公益企业。
AI监管始于欧洲。

1.4 2020年预测回顾

在这里插入图片描述

Section 1：Research

2020 Prediction: Vision Transformers

在2020年的报告中，我们预测：“基于注意力的神经网络将从NLP转向计算机视觉，以实现最先进的结果。”
Google提出了ViT（Vision Transformer）模型，这是一种无卷积的转换器架构。
VIT受益于缩放参数（从图中的粉红色到棕色线）和预训练数据（点到实线）。这有助于ViT在ImageNet上达到90.45%的顶级精度，这是SOTA，直到CoAtNet，一种结合自我注意和卷积的架构，取代了它（90.88%）。
为了使输入适应变压器结构，图像被分割成更小的方形面片，展平并线性投影，以获得变压器选择的输入尺寸。产生的序列被馈送至标准变压器。
更多的变压器在其他CV任务中表现出色：例如，分割器（图像分割）、SWN变压器（对象检测）。

Self-supervision is taking over computer vision
Facebook AI推出了SEER，这是一个1.3B参数的自监督模型，在1B Instagram图像上预先训练，在ImageNet上达到84.2%的顶级精度，轻松超越了所有现有的自监督模型。
自监督将NLP研究推向了新的高度。将这一成功推广到计算机视觉是困难的，因为模型需要更多的数据来捕获特定视觉概念的语义。
SEER将SwAV（一种学习图像嵌入的方法）与RegNets（一种可伸缩的CNN体系结构）相结合，前者可以产生具有相似视觉概念的图像的一致聚类。它使用未标记和未标记（非欧盟）Instagram图像。
SEER是一个很好的少数镜头学习者：当使用10%的数据集进行训练时，它在ImageNet上仍然达到77.9%的顶级精度。
它在目标检测和分割等其他任务上也优于监督方法。

自监督的视觉变换器在图像中看到了什么其他模型看不到的东西?
研究人员将自监督的ViT（SSViT）与完全监督的ViT和CONVNET进行比较，发现SSViT可以学习更强大的表征。
通过检查SSVIT最后一块的自注意模块，作者表明SSVIT学习“导致无监督对象分割的类特定特征”。
SSViTs学习到的功能非常强大：当使用这些功能和简单的k-NN算法而无需微调或数据扩充时，它们在ImageNet上实现了78.3%的top-1精度。
他们表明，这些属性不会出现在受监督的VIT和CONVNET中。
它们还与其他自监督方法和在ImageNet上训练的有监督ViT进行了比较，结果表明，自监督ViT在视频分割任务中的性能优于它们。

Transformers取代了其他主要的人工智能应用，例如音频和3D点云
自注意是SOTA语音识别模型的基本组成部分。。。
构象模型结合自注意和卷积来捕获全局交互和局部特征。
使用wav2vec 2.0和自训练预先训练的巨型符合者在Librispeech上实现了迄今为止最低的单词错误率（WER）
… 以及3D点云分类。
来自牛津大学、中大和英特尔实验室的一个团队为点云设计了名为“点变压器”的自关注网络。
点变换在各种任务（如对象分类、对象部分分割和语义场景分割）上的性能明显优于以前的工作。
e.g.他们在S3DIS区域5上实现了创纪录的70.4%的场景分割mIoU，比之前的最佳水平高出3.3个百分点.

Transformers 扩展到高效的基于self-attention-based架构中
DeepMind的感知者就是这样一个架构。它通过计算输入和低维可学习向量之间的注意，而不是输入和自身之间的注意，解决了变压器对输入长度的二次依赖性.
感知者的另一个重要优点是它的通用性。它不使用特定领域的假设，可以处理任意输入类型：图像、视频、点云等。
感知者与其他应用程序特定的架构（例如图像分类的VITS）保持一致。
Perceiver IO是Perceiver的改进，它可以处理任意大小的输入和输出。这将感知者的能力扩展到NLP、游戏、视频生成等。
在NLP任务上，Perceiver IO不需要事先标记化，而是直接操作字节。它仍然与基于Transformerd 的BERT GLUE的性能相匹配.

Transformers通用性的更多案例
来自加州大学伯克利分校、Facebook AI和谷歌的研究人员表明，为了在不同的任务中获得非常出色的性能，不需要微调语言预训练转换器的核心参数
他们使用GPT-2，只微调输入和输出层以及层规范（小于所有参数的0.1%）。

Beyond transformers: MLPs and CNNs make a comeback
虽然经过预训练的transformer已经风靡了ML世界，但新的研究表明，卷积神经网络（CNN）和多层感知器（MLP）不应该是事后诸葛亮。经过适当培训后，他们可以在几个NLP和计算机视觉任务上与transformers竞争.
谷歌的研究人员开始着手研究预培训和架构改进对语言模型性能的影响。他们发现预培训对CNN的帮助和对transformer的帮助一样大。在他们考虑的8个任务中的7个，它们表明预先训练的卷积Seq2Seq优于T5，最近的SOTA变压器。然而，Transformer在建模长期依赖关系方面仍然具有优势.
其他谷歌研究人员提出了MLP混合器，一种用于计算机视觉的全MLP架构。将MLP用于计算机视觉与传统智慧（使用CNN）和最近的突破（视觉变压器）背道而驰。他们表明，MLP混频器可以很好地扩展到大型数据集，并且与SOTA CNN和VIT具有竞争力.

新视野合成的显著进展
神经辐射场（NeRF）已经在视图合成方面取得了SOTA结果。新的应用程序进一步突出了它是多么令人印象深刻.
给定一幅图像的多个视图，NeRF使用多层感知器来学习图像的表示，并渲染图像的新视图。它学习从每个像素位置和视图方向到该位置的颜色和密度的映射。
NeRF在合成图像和真实图像的数据集上都优于以前的工作。它还发现了一个强大的应用程序，用于分离图像生成——控制图像的一个或多个属性，例如在不改变背景的情况下平移或旋转对象。
长颈鹿使用NeRF的一种生成变体来表示图像中的对象，而无需通过相机姿势进行监控。但长颈鹿并没有用MLP对整个场景建模，而是对每个对象进行建模。

2020 prediction:AlphaFold2
在我们2020年的报告中，我们预测：“DeepMind在结构生物学和药物发现方面取得了超越AlphaFold的重大突破。”
DeepMind凭借新系统AlphaFold 2（AF2）重返CASP14（2020年），两年后凭借AF1赢得CASP13（2018年）。
AF1使用卷积层预测氨基酸对之间的距离图，以生成3D结构。
AF2使用氨基酸的空间图形表示。残基是节点和边紧密连接残基。
接下来，对基于注意的模型进行端到端训练，以解释该图的结构以及进化相关序列、多序列比对（MSA）和氨基酸残基对表示，从而迭代地细化该图，从该图生成3D蛋白质结构坐标。
AlphaFold DB计划到2021年底，已知蛋白质序列的结构数量增加2000倍以上，结构总数增加700倍以上.

AlphaFold 2背后的思想迅速扩散到学术界和开源领域
在DeepMind在CASP14会议上发表他们的阿尔法2（AF2）方法的半年后，华盛顿大学的Baker实验室利用相关的想法创建了他们自己的蛋白质结构预测系统，并且在没有详细访问其方法的情况下设法达到接近原始AF2的精度。
在Baker模型中，信息是从一维氨基酸序列信息、二维距离图和三维坐标来回处理的，因此网络必须根据序列内部和之间的关系、距离和坐标进行推理。
必要性是发明之母：“DeepMind报告说，数天来使用多个GPU进行单独预测，而我们的预测是通过网络以与服务器相同的方式进行的。”
值得注意的是，该模型可以根据序列信息生成蛋白质-蛋白质复合物的结构模型，这反映了蛋白质在体内如何发挥作用的现实。

大型语言模型可以生成自然界中看不见的功能蛋白质
今天在自然界中发现的蛋白质是进化的产物。但是，如果人工智能能够生成具有进化设计之外的有用功能的人工蛋白质呢？
这项工作通过预测数千个蛋白质家族中超过280M个蛋白质序列的下一个氨基酸来学习蛋白质语言模型（上图）。
来自5个抗菌溶菌酶家族的AI产生的蛋白质显示出与天然溶菌酶相似的生物学性能特征，即使它们的序列相似性只有44%（下图）。
然后通过X射线结晶学确定人工溶菌酶模型的3D结构，显示与天然蛋白质相比，酶活性位点残基的保守折叠和位置.

学习新冠病毒-19的语言来预测其进化和逃逸突变体
根据病毒序列训练的语言模型可以预测保留传染性但诱发高度抗原变化的突变，类似于保留“语法性”但诱发高度“语义变化”。
当病毒变异以逃避宿主免疫系统的中和抗体时，就会发生病毒逃逸。这可能会阻碍疫苗的开发和有效性，我们已经在Delta变体中看到了这一点。
语言模型进化特征有助于识别S494P突变，该突变降低了体外抗SARS-CoV-2假病毒的多种治疗性抗体的中和潜力。
展望未来，我们可以想象通过使用语言模型来更好地理解病毒如何产生序列多样性，从而遏制病毒进化的疫苗开发。

预测RNA分子三维结构的最新进展
单链RNA（如mRNAs）折叠成清晰的3D结构以影响其生物学功能。与蛋白质不同，我们对RNA折叠知之甚少，可用RNA结构的数量是蛋白质的1%。
cryo EM和AI：结构生物学和药物发现的下一个前沿
低温电子显微镜（cryo EM）以接近原子分辨率的经验确定大分子的结构，而无需结晶。Cryo EM涉及向闪光冷冻的感兴趣的蛋白质或分子样品发射电子束。显微镜生成这些分子的图像，然后将这些图像组合起来重建其三维结构。cryo EM工作流程的所有阶段都适用于人工智能，从样本制备和数据收集到结构测定和原子解释。
预测和优先考虑新的药物组合、剂量和治疗时机
联合治疗可以改善癌症患者的预后，但在实验室条件下，对大量患者进行经验性测试是不可行的。在这里，自我监督用于观察用有限数量的药物组合治疗的细胞，并预测看不见的组合的效果。
利用模型引导搜索加速高通量虚拟药物筛选
深度学习模型可以从少量的经验实验中学习药物-蛋白质结合关系，以帮助确定虚拟筛选广阔化学空间中哪些区域的优先级。
利用transformer预测化学反应性能
化学反应的产率描述了转化为所需产物的反应物的百分比，是反应性能的关键指标。预测反应产率有助于化学家导航化学反应空间，设计更可持续、经济和有效的合成计划。
游戏继续推动强化学习研究
MuZero是DeepMind“Zero”家族的最新成员。它与AlphaZero的Go、chess和Shogi性能相匹配，在Atari基准上优于所有现有模型，同时只在世界模型中学习。Muzero于2020年12月出现在《自然》杂志上。
DeepMind以前成功的算法依赖于精确的游戏动态，他们将其用于规划。对于非常复杂和非结构化的游戏，这种方法不能很好地扩展。
MuZero只在世界模型中学习，这意味着它学习游戏动态的模型。
但学习这些动态的完整模型是一项艰巨的任务。相反，MuZero只对与其决策相关的内容建模，使其能够很好地扩展到复杂的游戏中。
Atari基准是一套视觉上复杂的游戏，这是基于模型的系统无法实现的。MuZero现在在Atari上的性能超过了最好的无模型系统，同时在Go、chess和Shogi上的性能也达到了最先进的算法水平

Atari的超人世界模型，但预算有限
DreamerV2是第一个在单个GPU上训练的基于模型的RL代理，在Atari基准的55项流行任务上超越了人类水平的性能。该代理纯粹在像素训练的世界模型的潜在空间内学习行为，这使得这些行为更加普遍，能够更有效地解决未来的任务。
在所有性能聚合指标中，DreamerV2的性能远远优于其他使用相同计算预算训练的RL代理。

强化学习中的Zero-short推广
RL代理在具有挑战性的个人任务中表现出令人印象深刻的性能。但他们能概括出他们从未接受过培训的任务吗？DeepMind在一个3D模拟环境中对RL代理进行了340万任务的培训，培训内容涉及700k游戏的不同集合，并表明他们可以在无需额外培训的情况下推广到完全不同的游戏。
研究人员创建了XLand，这是一个巨大的可控环境，允许他们动态地调整代理的训练方式，更重要的是，调整他们训练的游戏。
游戏的分布是使用一种称为基于群体的训练的超参数优化技术来学习的。它允许他们根据经纪人的行为找到具有适当难度的游戏。这确保了代理构建更多的通用功能。
随着训练的进行，代理表现出启发式行为，如实验、改变世界状态和合作，这是普通RL代理所不具备的特征。这些习得的行为使他们能够概括为手工设计的任务，这在RL研究中尚属首次

AI培训：AlphaGo教练专业围棋运动员
2016年AlphaGo发布后不久，一个名为Leela的软件实现就问世了。为了评估其对围棋玩家表现的影响，研究人员研究了2015年至2019年间1200多名玩家的750K围棋动作。他们表明，Leela的出现与移动质量的显著改善相吻合。
年轻球员的进步更大，他们可能更愿意向Leela学习。
中国和韩国的玩家最了解Leela（通过网络搜索的数量衡量），他们的移动质量比日本的玩家有更高的提高，日本的玩家后来才采用了Leela。

研究人员呼吁在强化学习中更严格地使用统计学
RL基准测试的日益复杂以及解决这些问题所需的计算能力使得研究人员使用越来越少的运行来评估他们的模型。然而，大多数人仍然只报告分数估计值，比如中位数。结果是SOTA RL模型的性能排名非常混乱.
研究人员在Atari 100k基准上检查了6种最佳RL算法的性能评估。他们表明，这些方法通常依赖于非常规的评估协议或不可靠的随机点估计，由于运行次数较少，这些随机点估计普遍高估/低估了它们的预期值。
他们建议使用置信区间或稳健点估计。一个例子是四分位平均值（IQM）。它对异常值具有鲁棒性，这使得它非常适合少数运行模式。
使用IQM和其他指标，他们在3个流行的RL基准上重新分类SOTA RL算法。他们敦促研究人员使用更多的指标来描绘他们模型性能的全貌。

少即是多（Less is more）：看几段视频就足以学会如何为视频添加字幕
为了解决视频和语言（V&L）任务（如视频字幕），ClipBERT只使用少量稀疏采样的短片段。它仍然优于利用全长视频的现有方法.
解决视频和语言任务的通常方法是对视频和图像使用独立的任务无关编码器，然后使用生成的特征向神经网络教授手头的任务。
这一过程的自然改进将是视觉和文本编码器的端到端学习。但由于视频剪辑的长度，这通常是计算上负担不起的。
令人惊讶的是，研究人员显示，通过端到端学习，一个人只需要少量的视频样本，就可以超越使用全长视频的现有方法。他们还验证了ClipBERT在稀疏随机抽样中的性能优于密集均匀抽样。
ClipBERT在文本到视频检索和视频质量保证（包括MSRVTT、DiDeMo和TGIF-QA）的数据集上优于SOTA方法.

对于大规模的多语言语音识别来说，越大越好
谷歌研究人员通过增加模型容量来解决高资源语言退化问题
多语言ASR（自动语音识别）的基本假设是，从一种语言学习到的附加信息应该有益于其他语言。在实践中，由于语言变化大，数据不平衡严重，使用更多的语言会使建模任务更加困难。
虽然低资源语言确实受益于多语言培训，但与单语设置相比，高资源语言（如英语）的模型容量通常会减少。
他们认为每种语言有7K到54 K的海量的15语言数据集。通过将模型的容量从1B参数增加到10B参数并使其更深入，与单语模型相比，他们在所有语言上提高了多语言系统的性能（通过单词错误率（WER）衡量）。他们还表明，增加模型容量实际上可以提高训练速度.

超越ASR的语音生成：无文本NLP
语音生成通常需要训练一个自动语音识别（Automatic Speech Recognition - ASR）系统，该系统资源密集且容易出错。研究人员引入了生成性口语建模（GSLM），即直接从原始音频中学习语音表示，而无需任何标签或文本。
GSLM的一个主要目标是使人工智能更具包容性：在线可用的大部分文本信息都是以英语等几种语言提供的。更好地利用在线可用的音频信息（播客、本地电台、社交应用程序）有助于提高当前AI音频系统在稀有语言上的性能。
通过语调，音频编码了更多的情感和细微差别。能够以自我监督的方式仅从音频信号生成语音可能会产生更自然、更具表现力的人工智能系统。
研究人员已经在GSLM中迈出了一些第一步，他们展示了他们可以利用韵律（语音的节奏、重音和语调）生成自然连贯的语音。

GANs有一个新的对手：扩散模型
扩散模型的训练比GAN的更稳定，并且在图像生成、音频合成、形状生成和音乐生成等方面优于它们。
**原理：**给定数据集D中的一幅图像，经过足够多的随机噪声添加步骤后，我们大致得到噪声分布的一个样本。如果可以通过从噪声中采样来恢复过程并从数据集D的分布中恢复图像，该怎么办？
**方法：**扩散模型通过将每一步的逆分布（从噪声图像生成去噪图像）建模为高斯分布来解决此问题，其均值和协方差被参数化为DNN。
扩散模型并不新鲜，但最近的改进使其在理论和实践上都具有吸引力。
尽管速度较慢，但在64x64到512x512的所有分辨率范围内，他们都击败了ImageNet上的GANs。

从文本图像对学习医学图像表示
将深度计算机视觉应用于医学图像的标准方法是微调ImageNet预训练模型或使用基于规则的标签从医学文本报告中提取。相反，ConVIRT方法使用对比目标直接对自然出现的图像-文本对进行预训练，而无需任何监督。ConVIRT优于所有ImageNet初始化模型，标记的训练数据仅为10%。
在对比预训练过程中，模型学习将批次中的每个图像与其文本同伴关联，同时将其与其他文本片段分离。为了更好地学习表示法，ConVIRT通过使用图像和文本的随机变换使任务变得更加困难。
ConVIRT在4个数据集上进行测试，这些数据集跨越4个不同的分类任务：二进制、多标签二进制、多类别和异常检测。在4项任务中的3项任务中，仅使用1%训练数据的ConVIRT比使用100%训练数据的ImageNet初始化模型取得更好的分类结果。

多模式自监督加上规模等于一个强大的代表
OpenAI的剪辑使用400M文本图像对来学习图像和文本表示。它在各种数据集上都表现出稳定的性能，无需任何微调。
CLIP强大的学习表现来自三个要素：视觉转换器、对比目标（灵感来自ConvIRT）和规模
在对比预训练过程中，模型学习将批次中的每个图像与其文本同伴关联，同时将其与其他文本片段分离。
要在特定分类任务上使用CLIP，需要使用提示，其中任务数据集的标签被重新格式化，以类似于预训练集，同时传达任务的基本上下文。然后，CLIP预测所有编码提示中与编码图像对比损失最小的提示。
CLIP是一个很好的zero-shot学习者。它的性能与原始的全监督ResNet-50一样好，平均而言，它在对象分类、OCR、视频活动识别和地理定位等27个数据集的零镜头预测方面优于所有现有模型。

DALL-E画出你想要的，但一定要指导好它
OpenAI的DALL-E将文本-图像对视为一项生成任务，从而学会为大量自然语言提示生成可信的图像。
DALL-E是GPT-3的一个12B参数版本，在文本-图像对上进行训练。它接收1280个标记序列形式的编码图像和文本，并对其进行自回归建模。
为了从文本提示中产生最好的样本，研究人员使用CLIP对32幅DALL-E的最佳生成图像进行重新排序，这始终会产生令人印象深刻的可视化效果。
由此和相关研究产生的一个自然问题是形成有效的激励机制的问题。事实上，文本提示的准确框架对结果的质量有很大影响。

使用剪辑的学习表示法进行zero-short目标检测
CLIP已经成为下游任务的基础模型：谷歌的研究人员利用其zero-shot功能和Mask R-CNN创建了一个zero-shot学习模型（VLiD），在zero-shot目标检测方面超过了监督模型。
在训练过程中，VLiD只给出一部分要预测的类，CLIP为其生成类表示。然后，VLiD使用CLIP来预测由Mask R-CNN生成的图像表示的类别。
只有在推理过程中，VLiD才被赋予在训练过程中看不到的新颖课程。
VLiD是第一个在LVIS数据集上进行评估的零炮目标探测器，它在新类别上的表现优于其监督对手。

Codex for coders
OpenAI的Codex系统是GPT-3的一个专门产物，GPT-3专注于将自然语言翻译成十几种编程语言中的功能性计算机代码。
将问题分解为可管理的较小问题后，开发人员可以调用Codex自动将这些问题映射到现有代码（库、API或函数）。
OpenAI Codex了解指令的上下文，可以保留以前指令的内存，以便在新查询中更有效地进行推理。
该系统使用GPT-3的自然语言数据集以及从包括GitHub在内的公共资源检索的数十亿行源代码进行训练。
然而，代码生成模型仍然无法破解编码问题
代码生成模型可以生成代码片段，但它们很难生成整个程序。
在编码挑战中，参与者需要编写程序来解决用自然语言描述的问题。
APPS是一个包含10000个编码问题的基准，它测试代码生成模型能够解决这些挑战的能力。然后使用人工编写的测试用例测试生成的代码。
GPT-2和GPT-Neo这两种通用语言模型在Github和应用程序培训数据上进行了微调，而OpenAI的Codex在代码上进行了培训，使用时无需进一步微调。
Codex在应用程序问题上的表现远远优于其他语言模型，但所有模型的得分都很低，尤其是在中级和高级问题上（准确率远低于5%）。

不要指望语言模型能帮助你完成数学考试。
模型在测试推理和问题解决能力的竞赛数学问题上表现不佳。
伯克利的研究人员介绍了数学，一个用自然语言表述的数学竞赛问题的数据集。这与以前基于形式定理证明的数据集不同。
他们测试了两个模型，GPT-2（0.1B至1.5B参数）和GPT-3（2.7B至175B参数），并表明两个模型的尺寸增加导致了更好的分数。然而，这些分数一般，介于3%到7%之间。
应该注意的是，数据集是相当具有挑战性的，因为计算机科学博士生“对数学不特别感兴趣”在数据集上只获得了“40%的分数”。

Big fat liars: large language models are less truthful than their smaller peers
研究人员在TrusticQA上测试了大型语言模型。TrusticQA是一个新的问题基准，涉及健康、法律、阴谋和虚构等领域。他们发现最佳模型在58%的问题上是真实的，而人类的基线是94%。更令人惊讶的是，尺寸较大的模型通常不太真实。大胖子说谎者：大语言模型的真实性不如小语言模型的真实性。图2：控制琐事问题的平均真实性
尽管LLM在控制琐事问题上相对真实，但他们在真实性问题上却举步维艰，其中包含的问题旨在愚弄最大的GPT-3

预训练、提示、预测：NLP模型的新范式
CMU的研究人员调查了60多篇论文，以了解在推动NLP研究方面正在取得的进展。他们详细记录了从“预训练、微调”程序到“预训练、提示和预测”程序的转变，这与zero-shot学习特别相关.
在新任务中使用预先训练的语言模型（LM），主要方法是通过文本提示调整LM的目标，从而对其进行微调。
在提示中，我们做的是相反的：我们使新任务适应LMs。例如：给定一个在多语种数据集上预先训练的模型，“如果我们选择提示“英语：我错过了今天的总线。法语：“α”），LM就可以用法语翻译填空。”
这种模式灵活性的代价是快速工程：如何为手头的任务选择最佳的快速程序？

提示是zero-shot学习的关键
提示已被证明是NLP中zero/few-shot学习的关键部分之一。随着zero-shot方法变得越来越普遍，通过提示构建有效的问题变得越来越重要。
通过以“提示”的形式有效地传达问题上下文，并使用目标标签填充“Mad Libs”样式的增强目标中的插槽，可以在数量上（左）和质量上（右）显著提高模型精度.
来自伯克利的ML博客：“虚幻引擎是由Epic Games创建的一个流行的3D视频游戏引擎。CLIP可能看到了很多视频游戏中的图像，这些图像带有标题“在虚幻引擎中渲染”。因此，通过将此添加到我们的提示中，我们有效地激励模型复制那些虚幻引擎图像的外观。