2021 AI技术盘点：预训练模型5大进展

智源社区

于 2021-12-24 17:10:14 发布

阅读量1.1k

点赞数

文章标签：人工智能大数据编程语言 python 机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/122138607

版权

【专栏：前沿进展】2021年已进入尾声，回顾一年来人工智能领域的发展历程，有众多瞩目的技术事件发展。其中，预训练模型无疑是2021年的重点发展领域。年初的Switch Transformer开启万亿参数模型的研发热潮，DALL·E和CLIP的问世推动多模态预训练的发展，“悟道”系列模型成为国内首个突破万亿参数模型等等——层出不穷的预训练模型涌现，催生出超大规模智能模型的新兴研究领域。

与此同时，研究者在研发模型之外，也关注大规模预训练加速方法，以提升计算效率，降低算力依赖。此外，针对超大规模智能模型技术、社会、经济、伦理等方面的系统研究拉开序幕，基础模型相关的研究体系已然形成。

作为2021年终盘点，智源社区整理今年人工智能领域的发展情况和案例，通过汇总专家学者观点建议，形成《智源人工智能前沿报告》（AI Frontiers Report），预计将于2021年末发布，该报告涵盖人工智能技术中的机器学习、计算机视觉、自然语言处理等十余个科研领域，AI平台和工具技术发展情况，以及人工智能产业方面的发展趋势、动向情况等，敬请期待。本篇文章来自该报告预训练模型技术相关板块。

审订专家：刘知远、王树徽、袁莎

撰文：戴一鸣

系统研究超大规模智能模型发展和影响的新兴领域已经形成

随着BERT、GPT-3、DALL·E等超大模型的兴起，“自监督学习+预训练模型微调”适配方案逐渐成为主流。然而，随着超大规模预训练模型在科研、产业、社会、经济等领域的作用日益凸显，其带来的深远影响成为科学家们关注的重点。

案例1：Percy Liang、李飞飞等学者提出基础模型概念

8月，Percy Liang、李飞飞等学者将大规模预训练模型统一命名为基础模型（Foundation Models)，并撰文讨论基础模型面临的机遇和挑战。论文分为四个部分，分别阐述了基础模型的能力、应用领域、技术层面和社会影响。

图注：基础模型的涌现和同质化现象

来源：https://arxiv.org/pdf/2108.07258.pdf

图注：基础模型在多种模态数据的训练和下游任务应用中处于中心地位

来源：https://arxiv.org/pdf/2108.07258.pdf

图注：基础模型涉及的议题

来源：https://arxiv.org/pdf/2108.07258.pdf

案例2：DeepMind发表语言模型社会危害评估论文

12月，DeepMind发表论文，研究预训练语言模型带来的伦理和社会危害。研究者主要探究了模型在六大方面的不良影响，并谈到两个伦理和社会影响方面需要研究者持续关注。

研究者认为，当前的基准测试工具不足以评估一些伦理和社会危害。例如，当语言模型生成错误信息，人类会相信这种信息为真。评估这种危害需要更多与语言模型进行人机交互。此外，AI领域对于风险控制的研究依然不足。例如，语言模型会学习、复现和放大社会偏见，但是关于这一问题的研究仍处于早期阶段。

图注：DeepMind论文研究的六大语言模型伦理和社会危害

来源：https://deepmind.com/blog/article/language-modelling-at-scale

超大规模预训练模型研发竞赛进入白热化阶段

GPT-3的问世，激发研究者探索规模更大、性能更惊人的超大规模预训练模型。国内外大型科研机构和企业纷纷投入巨量算力进行研发工作，将算力规模推升至万亿规模，探索模型的参数、性能和通用任务能力边界。

目前，已有OpenAI、谷歌、FaceBook、微软、英伟达、智源研究院、阿里达摩院、华为、百度、浪潮等研发机构和企业加入“军备竞赛”。

案例1：谷歌研发万亿规模预训练模型Switch Transformer

1月，谷歌研究人员研发出新的语言模型Switch Transformer，包含1.6万亿个参数，是包含1750亿参数的GPT-3的九倍。研究者将Switch Transformer与谷歌研究的T5-Base和T5-Large模型进行了对比，结果表明，在相同的算力资源下，新模型实现了最高7倍的预训练速度提升。

图注：Switch Transformer编码块结构

最低0.47元/天解锁文章

智源社区

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
2021 AI技术盘点：预训练模型5大进展

【专栏：前沿进展】2021年已进入尾声，回顾一年来人工智能领域的发展历程，有众多瞩目的技术事件发展。其中，预训练模型无疑是2021年的重点发展领域。年初的Switch Transforme...
复制链接

扫一扫