【大模型应用开发-大模型知识】(一)大模型基础知识

forest_long

已于 2024-02-27 22:33:12 修改

阅读量945

点赞数 12

分类专栏：大模型应用开发文章标签：人工智能大模型机器学习数据挖掘神经网络深度学习自然语言处理

于 2024-02-27 08:16:07 首次发布

本文链接：https://blog.csdn.net/forest_long/article/details/136312648

版权

大模型应用开发专栏收录该内容

52 篇文章 16 订阅

订阅专栏

本文介绍了大模型的发展历程，包括早期的统计学习方法到深度学习和Transformer架构的引入。重点讲述了大语言模型（LLM）如GPT系列和ChatGPT的特点，如其巨大的规模、涌现能力、多任务学习和预训练技术。文章还探讨了大模型在自然语言处理中的关键作用和未来趋势。

摘要由CSDN通过智能技术生成

一、什么是大模型

大语言模型（英文：Large Language Model，缩写LLM），也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言。

大语言模型 (LLM) 指包含数百亿（或更多）参数的语言模型，这些模型在大量的文本数据上进行训练，例如国外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等，国内的有ChatGLM、文心一言、通义千问、讯飞星火等。

研究界给这些庞大的语言模型起了个名字，称之为“大语言模型（LLM）”。而 LLM 的一个杰出应用就是 ChatGPT。

GPT-3 拥有1750 亿参数， PaLM拥有 5400 亿参数。

二、发展历程

20世纪90年代，语言建模的研究，最初采用了统计学习方法，通过前面的词汇来预测下一个词汇。

2003年，深度学习先驱Bengio在论文《A Neural Probabilistic Language Model》中，首次将深度学习的思想融入到语言模型中，使用了更强大的神经网络模型。

2018年左右，研究人员引入了Transformer架构的神经网络模型，通过大量文本数据训练这些模型，使它们能够通过阅读大量文本来深入理解语言规则和模式，就像让计算机阅读整个互联网一样。

随着语言模型规模的扩大（增加模型大小或使用更多数据），模型展现出了一些惊人的能力，通常在各种任务中表现显著提升。这时我们进入了大语言模型（LLM）时代。

三、大模型的相关概念区分

大模型（Large Model,也称基础模型，即Foundation Model），是指具有大量参数和复杂结构的机器学习模型，能够处理海量数据、完成各种复杂的任务，如自然语言处理、计算机视觉、语音识别等。

超大模型：超大模型是大模型的一个子集，它们的参数量远超过大模型。

大语言模型（Large Language Model）：通常是具有大规模参数和计算能力的自然语言处理模型，例如 OpenAI 的 GPT-3 模型。这些模型可以通过大量的数据和参数进行训练，以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

GPT（Generative Pre-trained Transformer）：GPT 和ChatGPT都是基于Transformer架构的语言模型，但它们在设计和应用上存在区别：GPT模型旨在生成自然语言文本并处理各种自然语言处理任务，如文本生成、翻译、摘要等。它通常在单向生成的情况下使用，即根据给定的文本生成连贯的输出。

ChatGPT：ChatGPT则专注于对话和交互式对话。它经过特定的训练，以更好地处理多轮对话和上下文理解。ChatGPT设计用于提供流畅、连贯和有趣的对话体验，以响应用户的输入并生成合适的回复。

四、大模型的发展历程

萌芽期（1950-2005）：以CNN为代表的传统神经网络模型阶段

· 1956年，从计算机专家约翰·麦卡锡提出“人工智能”概念开始，AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。

· 1980年，卷积神经网络的雏形CNN诞生。

· 1998年，现代卷积神经网络的基本结构LeNet-5诞生，机器学习方法由早期基于浅层机器学习的模型，变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础，对后续深度学习框架的迭代及大模型发展具有开创性的意义。

探索沉淀期（2006-2019）：以Transformer为代表的全新神经网络模型阶段

· 2013年，自然语言处理模型 Word2Vec诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。

· 2014年，被誉为21世纪最强大算法模型之一的GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。

· 2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构，奠定了大模型预训练算法架构的基础。

· 2018年，OpenAI和Google分别发布了GPT-1与BERT大模型，意味着预训练大模型成为自然语言处理领域的主流。在探索期，以Transformer为代表的全新神经网络架构，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升。

迅猛发展期（2020-至今）：以GPT为代表的预训练大模型阶段

· 2020年，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，成为当时最大的语言模型，并且在零样本学习任务上实现了巨大性能提升。随后，更多策略如基于人类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。

· 2022年11月，搭载了GPT3.5的ChatGPT横空出世，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网。

· 2023年3月，最新发布的超大规模多模态预训练大模型——GPT-4，具备了多模态理解与多类型内容生成能力。在迅猛发展期，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下，在Transformer架构基础上，坚持GPT模型及人类反馈的强化学习（RLHF）进行精调的策略下取得的。

五、大模型的特点

巨大的规模: 大模型包含数十亿个参数，模型大小可以达到数百GB甚至更大。巨大的模型规模使大模型具有强大的表达能力和学习能力。

· 涌现能力：涌现（英语：emergence）或称创发、突现、呈展、演生，是一种现象，为许多小实体相互作用后产生了大实体，而这个大实体展现了组成它的小实体所不具有的特性。引申到模型层面，涌现能力指的是当模型的训练数据突破一定规模，模型突然涌现出之前小模型所没有的、意料之外的、能够综合分析和解决更深层次问题的复杂能力和特性，展现出类似人类的思维和智能。涌现能力也是大模型最显著的特点之一。

· 更好的性能和泛化能力：大模型通常具有更强大的学习能力和泛化能力，能够在各种任务上表现出色，包括自然语言处理、图像识别、语音识别等。

· 多任务学习: 大模型通常会一起学习多种不同的NLP任务,如机器翻译、文本摘要、问答系统等。这可以使模型学习到更广泛和泛化的语言理解能力。

· 大数据训练: 大模型需要海量的数据来训练,通常在TB以上甚至PB级别的数据集。只有大量的数据才能发挥大模型的参数规模优势。

· 强大的计算资源: 训练大模型通常需要数百甚至上千个GPU,以及大量的时间,通常在几周到几个月。

· 迁移学习和预训练：大模型可以通过在大规模数据上进行预训练，然后在特定任务上进行微调，从而提高模型在新任务上的性能。

· 自监督学习：大模型可以通过自监督学习在大规模未标记数据上进行训练，从而减少对标记数据的依赖，提高模型的效能。

· 领域知识融合：大模型可以从多个领域的数据中学习知识，并在不同领域中进行应用，促进跨领域的创新。

· 自动化和效率：大模型可以自动化许多复杂的任务，提高工作效率，如自动编程、自动翻译、自动摘要等。

forest_long

关注

12
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
【大模型应用开发-大模型知识】(一)大模型基础知识

大语言模型（英文：Large Language Model，缩写LLM），也称大型语言模型，是一种人工智能模型，旨在理解和生成人类语言。大语言模型 (LLM) 指包含数百亿（或更多）参数的语言模型，这些模型在大量的文本数据上进行训练，例如国外的有GPT-3 、GPT-4、PaLM 、Galactica 和 LLaMA 等，国内的有ChatGLM、文心一言、通义千问、讯飞星火等。研究界给这些庞大的语言模型起了个名字，称之为“大语言模型（LLM）”。而 LLM 的一个杰出应用就是 ChatGPT。
复制链接

扫一扫