大模型发展历程
`
一、什么是大模型
大模型(large model)
大语言模型(Large Language Model LLM) 是大模型在自然语言领域的一个应用
二、大语言模型发展历程
1.大模型发展的历史阶段
从人工智能的发展史看,大致分为如下六个阶段
1起步发展期:1943年—20世纪60年代
2反思发展期:20世纪70年代
3应用发展期:20世纪80年代
4平稳发展期:20世纪90年代—2010年
5蓬勃发展期:2011年-2018年
6LLM繁荣发展期:2018年-2023年
只记录最后阶段重要事件
如上图,基本概括了整个LLM的发展过程
大型语言模型(LLM)在过去几年中经历了迅速的发展,这一发展过程中的一些重要事件包括:
-
Transformer 结构的引入:2017 年,Google 的论文《Attention is All You Need》引入了 Transformer 架构。这种新结构使模型更好地理解和处理自然语言,并成为了现代 LLM 的基础。
-
BERT 的发布:2018 年,Google 发布了 BERT(Bidirectional Encoder Representations from Transformers)。这是一个基于 Transformer 架构的双向编码器模型,展现了在自然语言理解任务上的强大表现。
-
GPT 系列模型的推出:OpenAI 从 2018 年开始推出了 GPT 系列模型,包括 GPT、GPT-2 和 GPT-3。这些模型展示了在文本生成、对话系统等任务中的卓越性能,尤其是 GPT-3,它具有 1750 亿个参数,成为当时最大的 LLM。
-
预训练和微调的流行:预训练和微调技术的应用使得 LLM 可以在大量文本数据上进行预训练,然后针对特定任务或领域进行微调,从而获得更好的性能。这种方法成为 LLM 训练的主要方式之一。
-
多语言模型的兴起:随着全球化的发展,研究人员开始关注多语言模型的开发。例如,Facebook 的 XLM-R 是一种多语言的 LLM,能够处理多种语言任务。
-
数据和计算资源的增长:随着 LLM 的发展,训练模型所需的数据量和计算资源也显著增长。云计算和高性能计算集群的可用性为 LLM 的发展提供了强大的支持。
-
模型的应用:LLM 在各种应用领域中取得了广泛的应用,如对话系统、文本生成、问答系统、机器翻译等。这些应用的成功推动了 LLM 的进一步发展和改进。