清华刘知远：大模型「十问」，寻找新范式下的研究方向

智源社区

于 2022-03-23 14:28:20 发布

阅读量3.8k

点赞数

文章标签：算法大数据编程语言 python 机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/123700747

版权

本文由清华刘知远探讨大模型时代的新问题，包括理论基础、架构、能效、适配性、可控性、安全性、认知能力、应用、评估和易用性等10个值得深入研究的领域。大模型的出现带来了AI研究的变革，但也带来了一系列挑战，如Transformer框架的局限、模型效率和安全性的改进等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型的出现迎来了AI研究的新时代，其所带来的结果提升十分显著，超越了很多领域中针对研究问题设计特定算法实现的提升。

具体而言，预训练到Finetune的新范式最本质的特点是统一框架以及统一模型。首先，更加统一的架构，在预训练出现之前，CNN、RNN、Gate、Attention等在内的算法框架层出不穷。2017年 Transformer出现之后，取代各种流行框架的是一个统一框架。其次，这种统一框架通过预训练机制带来了统一的模型，因而我们现在可以用一个统一模型进行微调，使其同时用在非常多的下游任务上。

那么，在大模型时代有哪些新问题亟待关注和探索？

由此，我想和大家分享一下十个值得深入探索的问题。希望有更多研究者在大模型时代找到自己的研究方向。

问题如下：

1、理论：大模型的基础理论是什么？

2、架构：Transformer是终极框架吗？

3、能效：如何使大模型更加高效？

4、适配：大模型如何适配到下游任务？

5、可控性：如何实现大模型的可控生成？

6、安全性：如何改善大模型中的安全伦理问题？

7、认知：如何使大模型获得高级认知能力？

8、应用：大模型有哪些创新应用？

9、评估：如何评估大模型的性能？

10、易用性：如何降低大模型的使用门槛？

作者：刘知远

整理：李梦佳

理论：大模型的基础理论是什么？

首先，我认为在大模型当中第一个非常重要的问题就是它的基础理论问题。大模型的一个非常重要的特点就是可以利用非常少的下游任务数据进行相关下游任务的适配，无论是全量下游任务的训练数据还是few-shot learning，甚至zero-shot learning，都能达到相当不错的效果。同时在预训练到下游任务适配过程当中，需要要调整的参数量可以非常少，这两个特点都是大模型给我们带来的新现象。