大模型入门介绍

dear_xia

已于 2024-04-14 15:49:30 修改

阅读量729

点赞数 14

分类专栏：大模型文章标签： AIGC

于 2024-04-12 16:59:06 首次发布

本文链接：https://blog.csdn.net/qq_43756420/article/details/137644181

版权

大模型专栏收录该内容

2 篇文章 1 订阅

订阅专栏

本文概述了大语言模型的发展历程，从Transformer结构引入到BERT、GPT系列模型的崛起，强调了预训练和微调技术的作用，以及多语言模型和数据计算资源的增长对LLM的影响，展示了其在各种应用领域的广泛应用.

摘要由CSDN通过智能技术生成

大模型发展历程

一、什么是大模型

大模型（large model）
在这里插入图片描述

大语言模型（Large Language Model LLM） 是大模型在自然语言领域的一个应用
在这里插入图片描述

二、大语言模型发展历程

1.大模型发展的历史阶段

从人工智能的发展史看，大致分为如下六个阶段
１起步发展期：1943年—20世纪60年代
２反思发展期：20世纪70年代
３应用发展期：20世纪80年代
４平稳发展期：20世纪90年代—2010年
５蓬勃发展期：2011年-2018年
６LLM繁荣发展期：2018年-2023年

只记录最后阶段重要事件
在这里插入图片描述
如上图，基本概括了整个LLM的发展过程
大型语言模型（LLM）在过去几年中经历了迅速的发展，这一发展过程中的一些重要事件包括：

Transformer 结构的引入：2017 年，Google 的论文《Attention is All You Need》引入了 Transformer 架构。这种新结构使模型更好地理解和处理自然语言，并成为了现代 LLM 的基础。
BERT 的发布：2018 年，Google 发布了 BERT（Bidirectional Encoder Representations from Transformers）。这是一个基于 Transformer 架构的双向编码器模型，展现了在自然语言理解任务上的强大表现。
GPT 系列模型的推出：OpenAI 从 2018 年开始推出了 GPT 系列模型，包括 GPT、GPT-2 和 GPT-3。这些模型展示了在文本生成、对话系统等任务中的卓越性能，尤其是 GPT-3，它具有 1750 亿个参数，成为当时最大的 LLM。
预训练和微调的流行：预训练和微调技术的应用使得 LLM 可以在大量文本数据上进行预训练，然后针对特定任务或领域进行微调，从而获得更好的性能。这种方法成为 LLM 训练的主要方式之一。
多语言模型的兴起：随着全球化的发展，研究人员开始关注多语言模型的开发。例如，Facebook 的 XLM-R 是一种多语言的 LLM，能够处理多种语言任务。
数据和计算资源的增长：随着 LLM 的发展，训练模型所需的数据量和计算资源也显著增长。云计算和高性能计算集群的可用性为 LLM 的发展提供了强大的支持。
模型的应用：LLM 在各种应用领域中取得了广泛的应用，如对话系统、文本生成、问答系统、机器翻译等。这些应用的成功推动了 LLM 的进一步发展和改进。