大型语言模型(LLM)历史简介

大型语言模型(LLM)历史简介

在 DALL-E 2 中生成的图像。

介绍

当我们谈论大型语言模型 (LLM) 时,我们实际上指的是一种能够以类似人类的方式进行交流的高级软件。这些模型具有理解复杂上下文并生成连贯且具有人情味的内容的惊人能力。

如果您曾经与 AI 聊天机器人或虚拟助手聊天,那么您可能实际上在与 LLM 进行交互,甚至可能没有意识到这一点。这些模型的用途远远超出聊天机器人,并且具有广泛的应用范围,例如文本生成、自动翻译、情感分析、文档摘要以及许多其他场景!

LLM 已成为人工智能 (AI) 领域不可或缺的一部分。在本文中,我们将深入探讨 LLM 的世界,探索其历史和 LLM 的演变。

什么是大型语言模型?

大型语言模型 (LLM) 是指大型通用语言处理模型,这些模型首先在涵盖广泛主题的大量数据集上进行预训练,以学习和掌握人类语言的基本结构和语义。此处的“大型”一词既表示训练所需的大量数据,也表示模型包含数十亿甚至数万亿个参数。预训练使模型能够处理常见的语言任务,例如文本分类、问答和文档摘要,从而展示其多功能性。

经过预训练后,这些模型通常会针对特定应用进行微调,例如针对金融或医疗等特定领域的较小、专门的数据集,以提高解决特定问题的准确性和效率。这种先进行预训练,然后进行微调的方法使 LLM 不仅能够解决广泛的一般问题,而且还能够适应特定的应用要求。

大型语言模型的演进

大型语言模型(LLM)历史简介

大型语言模型 (LLM) 时间线。来源:大型语言模型和生成式 AI 简史 | NLP 从 Eliza 到 ChatGPT 的演变

上图概述了 LLM 的时间表。我们将在以下部分详细讨论每个重要阶段。

早期:聊天机器人和基于规则的系统(20 世纪 60 年代)

1966 年,世界见证了 ELIZA 的诞生,它被认为是人类有史以来制造的第一个聊天机器人。ELIZA 由麻省理工学院的 Joseph Weizenbaum 创建,是当时的一项开创性实验,实现了人机交互。虽然它无法像人类或如今的 ChatGPT 那样理解对话背景,但它可以通过使用模式匹配和替换方法将用户语句改写为问题来创建对话的幻觉。当时,聊天机器人有很多变体,其中最著名的一种叫做 DOCTOR,它的回答方式就像罗杰斯心理治疗师一样。在这种情况下,治疗师通过将问题转回到患者身上来“反思”问题。虽然 ELIZA 起步不大,但这无疑为未来几年聊天机器人和自然语言处理领域的进一步研究铺平了道路。要试用 ELIZA,请使用以下链接:ELIZA

循环神经网络的兴起(20 世纪 80 年代)

进入 20 世纪后期,我们看到了神经网络的出现,它深受人类大脑及其相互连接的神经元的启发。其中,循环神经网络 (RNN) 于 1986 年首次出现,并立即受到全世界的欢迎。与信息流单向的传统前馈神经网络不同,RNN 可以在其内部状态或记忆中记住先前的输入,并根据上下文回答问题。它们经过训练可以处理并将顺序数据输入转换为特定的顺序数据输出,并具有反馈回路,使其适合自然语言处理 (NLP) 任务。虽然 RNN 向前迈出了重要的一步,但它们也有局限性,尤其是在处理长句时。简而言之,它们不擅长保留记忆,并且会遭受长期记忆丧失。从技术角度来看,RNN 存在梯度消失的问题。有关 RNN 的一般描述,您可以访问以下链接:RNN

长期短期记忆的兴起(20 世纪 90 年代)

长短期记忆 (LSTM) 于 1997 年问世。LSTM 是一种特殊的 RNN。它们的主要优势在于能够记住长序列中的信息。因此,它克服了 RNN 的短期记忆限制。LSTM 具有独特的架构:它们具有输入门、遗忘门和输出门。这些门决定了每一步应该记忆、丢弃或输出多少信息。这种选择性记忆或遗忘的能力帮助 LSTM 在记忆中保留相关信息,使它们能够更有效地从句子中捕获长期依赖关系。例如,与 RNN 相比,它能够解决共指消解问题。

门控循环网络(2010 年代)

2014 年,门控循环单元 (GRU) 问世。它们旨在解决与 LSTM 相同的一些问题,但结构更简单、更精简。与 LSTM 一样,GRU 旨在解决消失梯度问题,允许它们保留句子中的长期依赖关系。GRU 仅使用两个门来简化门控:一个更新门,它决定保留多少先前的信息以及考虑多少新信息;以及一个重置门,它决定忘记多少先前的信息。GRU 中门控的减少使其在计算方面更加高效。

注意力机制的兴起(2014年)

事实证明,RNN 以及基于 RNN 的变体 LSTM 和 GRU 在保留遥远的上下文方面表现不佳。NLP 世界及其问题需要更多的东西,这催生了注意力的概念。注意力机制的引入标志着序列建模的重大范式转变,与以前的架构相比,它提供了一个全新的视角。RNN 将处理具有固定大小上下文向量的句子,这些句子试图将源句子的所有信息(无论其长度如何)塞进单个固定长度的向量中,因此,它们的性能会随着句子长度的增加而下降。相比之下,注意力允许模型动态回顾整个源序列,根据输出的每个步骤中的相关性选择不同的部分。这确保不会丢失或稀释关键信息,尤其是在较长的序列中。

大型语言模型(LLM)历史简介

性能比较。来源:大型语言模型与生成式人工智能简史 | NLP 从 Eliza 到 ChatGPT 的演变

上图说明了随着输入句子的长度增加,RNN 性能与 Attention Model 相比有所下降。

Transformer 架构的发明(2017 年)

Transformer 于 2017 年问世,由 Vaswani 和 Google 团队的同事发表的论文《Attention is all you need》中提出。这种新型架构依靠注意力机制来处理序列。它的核心由编码器和解码器组成,每个编码器和解码器都具有多层堆叠的自注意力和前馈神经网络。一个突出的特点是“多头”注意力,允许它同时关注输入句子的不同部分,捕捉各种上下文细微差别。另一个优势是它能够并行而不是顺序处理序列。这些优势使 Transformer 为 BERT、GPT 等后续模型奠定了基础,推动我们进入 LLM 的新时代。

大型语言模型的出现(2018 年至今)

随着 Transformer 的成功,下一个合乎逻辑的步骤就是扩展。这始于谷歌于 2018 年发布的 BERT 模型。与之前从左到右或从右到左处理文本的模型不同,BERT 被设计为同时考虑两个方向,因此得名:Transformer 的双向编码器表示 (BERT)。BERT 经过大量文本的预训练,是第一个可以针对特定任务进行微调的适当的基础语言模型,为各种基准设定了新的性能标准。随着 Open AI 于 2019 年发布其 GPT-2 模型,谷歌于 2019 年发布其 T5 模型,随后 GPT-3 于 2020 年问世,等等。这些 LLM 可以执行无数任务,标志着人工智能能力的范式转变。

大型语言模型(LLM)历史简介

近年来大型语言模型的时间表

结论

语言模型从简单的基于规则的系统演变为复杂的智能模型,表明人工智能技术取得了重大进步。如今,大型语言模型 (LLM) 不仅仅是增强基于文本的应用程序的工具,它们越来越能够理解人类并与人类交流。

此外,这些语言模型不仅能够处理文本,还能处理图像和声音,被称为多模态 LLM。这些模型能够处理和生成多模态数据,将文本、图像、音频和视频整合在一起,全面理解和分析不同形式的数据。多模态 LLM 有多种应用,包括从数字图像中提取文本、理解复杂符号、破译古代手写体、分析语音文件以进行总结、转录。

通过简化复杂的文本,多模态大型语言模型改变了我们与技术互动的方式,并使其更易于访问和响应人类需求。简而言之,这些大型语言模型正在成为人类的强大伙伴,帮助我们处理多项任务并以多种方式简化我们的生活。

欢迎前往我们的公众号,阅读更多资讯

创作不易,觉得不错的话,点个赞吧!!!

  • 16
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值