智源社区票选2021 AI十大进展出炉！

智源社区

于 2021-12-31 12:27:45 发布

阅读量306

点赞数

文章标签：算法人工智能大数据计算机视觉机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/122264514

版权

2021年AI领域取得了显著进步，包括诺贝尔经济学奖对因果推断的表彰，OpenAI和智源研究院发布的多模态预训练模型，以及谷歌的万亿参数模型和AlphaFold2蛋白质结构预测。此外，微软和Facebook提出的视觉预训练模型，以及斯坦福大学的脑机接口技术也是重要进展。这些成就展示了AI在理解复杂现象、跨模态交互和生物科学中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2021年11月，智源社区举办AI大调查，面向社区成员及广大AI领域的研究者和从业者，收集反馈意见和建议。目前已收到回复9000多份，根据智源社区2021AI大调查票选结果，我们选出了2021年人工智能领域十大技术进展事件，如下：

1.David Card、Joshua D.Angrist和Guido W.Imbens三人因对经济学研究的实证研究和因果推断的贡献获得诺贝尔经济学奖

挖掘因果关系是众多科学研究的目标。近年来在各个科学领域，特别是大数据和人工智能领域对因果推断研究的热情高涨，图灵奖获得者Judea Pearl 和Yoshua Bengio都认为因果推断是大数据和人工智能研究的一个突破口，人们需要一场“因果革命”来推动人工智能的发展。但因果推断也面临观察性研究、混杂因素、缺失数据带来的挑战。

2021年诺贝尔经济学奖授予加州大学伯克利分校的David Card、MIT的Joshua Angrist、斯坦福大学的Guido Imbens，以表彰他们在经济学研究的实证研究和因果推断方法方面的贡献，其科学背景是观察性数据的因果推断。

Card使用自然试验作为工具变量分析劳动经济学中一系列重要的因果问题，重塑或加深了人们对这些因果关系的认识，如发现提高最低工资并不会减少就业，推翻了人们对最低工资和就业之间关系的广泛认识。Angrist和Imbens将工具变量与潜在结果模型结合，使用潜在结果模型刻画工具变量假定和相应的统计模型，定义新的因果概念，发展新的统计推断方法—相当于重建了工具变量方法。

链接：https://hub.baai.ac.cn/view/12999

2.OpenAI发布多模态预训练模型DALL·E和CLIP

1月，OpenAI同时发布了两个大规模多模态预训练模型——DALL·E和CLIP。DALL·E可以基于短文本提示（如一句话或一段文字）生成对应的图像，CLIP则可以基于文本提示对图片进行分类。OpenAI表示，研发多模态大模型的目标是突破自然语言处理和计算机视觉的界限，实现多模态的人工智能系统。

链接：

https://hub.baai.ac.cn/view/5643

https://hub.baai.ac.cn/view/6636

3.谷歌发布1.6万亿参数模型Switch Transformer

1月，谷歌研究人员研发出新的语言模型Switch Transformer，包含1.6万亿个参数，是包含1750亿参数的GPT-3的九倍。研究者将Switch Transformer与谷歌研究的T5-Base和T5-Large模型进行了对比，结果表明，在相同的算力资源下，新模型实现了最高7倍的预训练速度提升。

链接：https://hub.baai.ac.cn/view/5807

4.智源研究院发布万亿规模超大规模智能模型悟道2.0

6月1日，智源研究院发布“悟道2.0”模型，参数规模达到1.75万亿，是GPT-3的10倍，打破由Switch Transformer预训练模型创造的1.6万亿参数记录，是中国首个万亿级模型。

链接：https://hub.baai.ac.cn/view/8375

5.AlphaFold2算法和蛋白质结构预测数据集开源

7月，DeepMind使用新开发的AlphaFold2算法预测出了35万种蛋白质的结构，其中包括人类基因组表达的约2万种蛋白质，以及其他20种生物学研究中的常用模式生物（如大肠杆菌、酵母和果蝇）表达的蛋白质，是过去用实验方法解决的蛋白质数量的两倍多。

研究发现，AlphaFold2能对人类蛋白质组中58%的氨基酸结构位置给出可信预测。35.7%的结构位置的预测达到了高置信度，是实验方法覆盖结构数量的两倍。在蛋白层面，AlphaFold2对43.8%的蛋白中至少四分之三的氨基酸序列都给出了可信预测，该研究于7月22日登上《自然》杂志。

DeepMind宣布，已与欧洲生物信息研究所（EMBL-EBI）合作建立AlphaFold DB蛋白质结构数据库，将覆盖98.5%的人类蛋白质信息，预测结果免费开放。12月，这项研究被《自然》杂志评为2021年度技术突破。

7月，华盛顿大学、哈佛大学等的研究者提出蛋白质结构预测算法RoseTTAFold，该方法基于深度学习，通过在蛋白质序列信息的学习，能够快速生成蛋白质的精确结构，减少传统方法在实验测定等方面投入的时间和精力。目前该算法已开源。

链接：https://hub.baai.ac.cn/view/13099；

https://hub.baai.ac.cn/view/8901

6.微软亚洲研究院提出Swin Transformer视觉预训练模型

8月，微软亚洲研究院研究者提出了Swin Transformer的视觉架构，一是采用CNN中常用的层次化构建方式，构建层次化Transformer；二是引入局部性（Locality）的思想，采用多种尺度的窗口，对无重合的窗口区域内进行Self-Attention计算。

实验结果表明，Swin Transformer在COCO的分割和检测任务以及ADE20K的语义分割任务上都超越了CNN，达到了最佳性能。Swin Transformer因其在计算机视觉领域的贡献获得ICCV2021最佳论文奖（马尔奖）。11月，Swin Transformer升级，可以训练分辨率达1536x1536的图像，在4个视觉基准上刷新纪录。

链接：https://hub.baai.ac.cn/view/12251

7.何恺明团队提出Masked Autoencoders视觉预训练方法

11月，Facebook何恺明团队提出了一种名为掩码自动编码器（Masked Autoencoder，MAE）的视觉训练方法。该方法在对于输入图像的局部进行了遮盖，并通过不对称的编码器-解码器结构对缺失像素进行重建。预训练后，撤除解码器，可将完整的图片输入编码器，使其完成视觉任务。实验结果显示，该方法在多种任务上都可以用更少的数据实现较高性能。

链接：https://hub.‍baai.ac.cn/view/11710

8.智源、清华等提出Pre-Train Prompt Tuning（PPT）框架

9月，清华大学黄民烈、刘知远等研究者提出了名为Pre-trained Prompt Tuning（PPT）的方法，目的是为了改进Prompt Tuning在小样本任务上的性能弱于Fine-tune方法的问题。研究者将分类任务（sentence-pair、multiple-choice、single-text）都统一到一种任务中，并预训练Soft Prompt。测试中，研究者采用了T5、mT5和CPM-2三种模型，对比了微调和多种Prompt Tuning训练策略的结构。实验表明，PPT在大多数任务上具有明显的性能优势。

链接：https://hub.baai.ac.cn/view/9890

9.斯坦福大学研究者利用AI和脑机接口实现“意念写字”

当前，脑机接口已经可以实现一定程度的大脑和计算机之间的沟通，如让瘫痪患者能够操控光标打字等，但是对于一系列高度灵巧的行为来说，解码这些行为背后的脑电信号需要更高精度的脑电解码方法。

5月，斯坦福大学的研究者提出了一种新型的脑机接口系统，采用循环神经网络，能够将来自运动皮层的手写字脑电信号解析为文本。在线情况下，该脑机接口实现了90字/分钟的速度，准确率为94.1%，在有自动纠错软件的支持下，离线的准确率高达99%。

链接：https://arstechnica.com/science/2021/05/neural-implant-lets-paralyzed-person-type-by-imagining-writing/

10.谷歌发布改进版视觉预训练模型ViT

2020年10月，谷歌大脑团队首次尝试将标准Transformer应用于图像，提出了视觉Transformer（ViT）模型，并在多个图像基准上接近甚至优于最佳性能。6月，ViT团队尝试将ViT模型进行扩展，训练出具有20亿参数的变体模型ViT G/14，在ImageNet数据集上达到了新的最佳性能。