大模型技术系列1--人工智能(AI)简介及发展历程

人工智能相关概念

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 人工智能(AI) : AI 有不同的定义,但其中一个定义或多或少已成为共识,即 AI 是一类计算机系统,它能够执行通常需要人类智能才能完成的任务。根据这个定义,许多算法可以被归为 AI 算法,例如导航应用程序所用的交通预测算法或策略类视频游戏所用的基于规则的系统。从表面上看,在这些实例中,计算机似乎需要智能才能完成相关任务
  • 机器学习(machine learning,ML):是 AI 的一个子集。在 ML 中,我们不试图直接实现 AI 系统使用的决策规则。相反,我们试图开发算法,使系统能够通过实例自己学习。自从在 20 世纪 50 年代开始进进行 ML 研究以来,人们已经在科学文献中提出了许多 ML 算法。
  • 深度学习(deep learning,DL): 在这些 ML 算法中,深度学习(deep learning,DL)算法已经引起了广泛关注。
  • 人工神经网络(artificial neural network):DL 是 ML 的一个分支,专注于受大脑结构启发的算法。这些算法被称为人工神经网络(artificial neural network)。它们可以处理大量的数据,并且在图像识别、语音识别及 NLP 等任务上表现出色。
  • Transformer: Transformer是一种特定的神经网络架构,GPT-4 和 ChatGPT 就是基于 Transformer。Transformer 就像阅读机一样,它关注句子或段落的不同部分,以理解其上下文并产生连贯的回答。此外,它还可以理解句子中的单词顺序和上下文意思。这使 Transformer 在语言翻译、问题回答和文本生成等任务中非常有效。

自然语言处理(NLP)

  • NLP 是 AI 的一个子领域,专注于使计算机能够处理、解释和生成人类语言
  • 现代 NLP 解决方案基于 ML 算法
  • NLP 的目标是让计算机能够处理自然语言文本。
    这个目标涉及诸多任务,包括文本分类、自动翻译、问题回答和文本生成等。
    • 文本分类将输入文本归为预定义的类别。这类任务包括情感分析和主题分类
      例如,某公司使用情感分析来了解客户对其服务的意见。电子邮件过滤是主题分类的一个例子,其中电子邮件可以被归类为“个人邮件”、“社交邮件”、“促销邮件”、“垃圾邮件”等。
    • 自动翻译:将文本从一种语言自动翻译成另一种语言。请注意,这类任务可以包括将代码从一种程序设计语言翻译成另一种程序设计语言,例如从 Python 翻译成 C++。
    • 问题回答:根据给定的文本回答问题。例如,在线客服门户网站可以使用 NLP 模型回答关于产品的常见问题;教学软件可以使用NLP 模型回答学生关于所学主题的问题。
    • 文本生成:根据给定的输入文本(称为提示词 )生成连贯且相关的输出文本。

大语言模型(large language model,LLM,简称大模型)

LLM是试图完成问本生成任务的一类 ML 模型。LLM 使计算机能够处理、解释和生成人类语言,从而提高人机交互效率。为了做到这一点,LLM 会分析大量文本数据或基于这些数据进行训练,从而学习句子中各词之间的模式和关系。这个学习过程可以使用各种数据源,包括维基百科、Reddit、成千上万本书,甚至互联网本身。在给定输入文本的情况下,这个学习过程使得 LLM 能够预测最有可能出现的后续单词,从而生成对输入文本有意义的回应。于2023 年发布的一些现代语言模型非常庞大,并且已经在大量文本上进行了训练,因此它们可以直接执行大多数 NLP 任务,如文本分类、自动翻译、问题回答等。GPT-4 和 ChatGPT 是在文本生成任务上表现出色的 LLM。

LLM发展历程

n-gram模型 => 循环神经网络(RNN)和长短期记忆网络(LSTM)=> transformer

n-gram模型

LLM 的发展可以追溯到机年前。它始于简单的语言模型,如 n-gram 模型。
n-gram 模型通过使用 词频 来根据前面的词预测句子中的下一个词,其预测
结果是在训练文本中紧随前面的词出现的频率最高的词。
虽然这种方法提供了不错的着手点,但是 n-gram 模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本

循环神经网络(RNN)和长短期记忆网络(LSTM)

为了提高 n-gram 模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络。
与 n-gram 模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但它们很难处理长文本序列并记住其上下文(也就是臭名昭著的“灾难性遗忘问题”),并且在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算是最高效的,因此在自动翻译等任务中被广泛使用

transformer

Transformer 架构彻底改变了 NLP 领域,这主要是因为它能够有效地解决之前的 NLP 模型(如 RNN)存在的一个关键问题:很难处理长文本序列并记住其上下文。Transformer 具备有效处理和编码上下文的能力
这场革命的 核心支柱是注意力机制 这是一个简单而又强大的机制。模型不再将文本序列中的所有词视为同等重要,而是在任务的每个步骤中关注最相关的词交叉注意力自注意力是基于注意力机制的两个架构模块,它们经常出现在 LLM 中。Transformer 架构广泛使用了交叉注意力模块和自注意力模块
交叉注意力有助于模型确定输入文本的不同部分与输出文本中下一个词的相关性。它就像一盏聚光灯,照亮输入文本中的词或短语,并突出显示预测下一个词所需的相关信息,同时忽略不重要的细节。

自注意力和交叉注意力机制的相关介绍参见:

  1. 手搓大模型:理解并编码自注意力、多头注意力、交叉注意力和因果注意力在大型语言模型中的应用
  2. 自注意力机制和交叉注意力机制的简介

大模型泛化

泛化(Generalisation)可以理解为一种迁移学习的能力,大致可以理解为把从过去的经验中学习到的表示、知识和策略应用到新的领域,是大模型最被需要的能力。

在NLP的上下文中,泛化意味着模型应该能够在没有直接训练的数据上表现得同样出色。

泛化能力对于大模型的应用尤为重要。因为在我们使用大模型时,我们希望它不仅在训练数据上表现得很好,而且在实际应用中也能够处理各种各样的未见过的数据

参见:大模型泛化能力详解:大模型泛化能力分类、泛化能力来源和泛化研究的方向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值