什么是注意力机制和嵌入层

爱吃瓜的猹z

于 2024-10-09 12:46:52 发布

阅读量290

点赞数 16

分类专栏：大模型文章标签： ai

本文链接：https://blog.csdn.net/qq_41505080/article/details/142783914

版权

大模型专栏收录该内容

12 篇文章 0 订阅

订阅专栏

注意力机制（Attention Mechanism 和 嵌入层（Embedding Layer) 是深度学习中，尤其是在自然语言处理（NLP）和序列任务中非常关键的概念。它们各自解决了不同问题，并大幅提升了模型的性能和灵活性。

1. 注意力机制（Attention Mechanism）

背景

传统的序列模型（如RNN或LSTM）在处理长序列时，容易丢失远距离信息。注意力机制是为了克服这种局限性而提出的一种方法。

核心思想

注意力机制的核心思想是：在处理序列数据时，让模型根据当前时刻的输入动态地关注其他时刻的重要信息。通过分配不同的注意力权重，模型可以选择性地“关注”输入序列中对当前任务最相关的部分。

工作原理

注意力机制通常涉及三个部分：查询（Query）、键（Key）**和**值（Value）。

查询（Query）：这是当前输入的特征向量，表示模型需要回答“应该关注什么？”的查询。
键（Key）：这是输入序列中每个位置的特征，表示模型需要匹配“哪些部分与查询相关？”。
值（Value）：这是输入序列中的实际值，表示当模型确定需要关注某个位置时，它应该返回的实际信息。

步骤：

计算查询与每个键的相似度（例如，通过点积计算），得到一个注意力权重。
根据这些注意力权重，对相应的值进行加权平均，得到最终的输出。

示例：在翻译任务中，假设当前正在翻译一个句子中的某个词。注意力机制可以根据这个词（查询），去句子的其他部分（键和值）中寻找最相关的信息（如前后的单词），并根据重要性加权这些信息以生成当前的翻译。

形式化描述

给定输入序列 X={x1,x2,…,xn}\mathbf{X} = {x_1, x_2, …, x_n}X={x1,x2,…,xn}，每个元素 xix_ixi 对应一个查询向量 qiq_iqi，键向量 kik_iki，以及值向量 viv_ivi。自注意力机制通常会计算每个位置的注意力权重，形式化为：

其中：

Q 是查询矩阵，由查询向量 q 组成。
K 是键矩阵，由键向量 K 组成。
V 是值矩阵，由值向量组成。
dk 是键向量的维度，用于归一化。

通过这种方式，模型能够在处理长序列时，更好地捕捉序列中的远距离依赖关系。

应用

机器翻译：帮助模型在生成目标语言的句子时，能够更好地参考源语言的句子。
图像处理：在图像分类或目标检测中，帮助模型关注图像的某些重要区域。
文本生成：生成模型（如GPT系列）使用注意力机制在生成新文本时选择性地参考上下文信息。

类型

自注意力（Self-Attention）：每个位置通过注意力机制关注同一个序列的其他位置（例如Transformer中的自注意力机制）。
多头注意力（Multi-Head Attention）：通过多个头并行计算注意力，增强模型的表现能力。

2. 嵌入层（Embedding Layer）

背景

在自然语言处理任务中，输入的数据通常是文本，而计算机只能处理数值。因此，嵌入层的目的是将离散的词汇（如单词、字符）转换为可以处理的连续向量。

核心思想

嵌入层的核心思想是：将高维、稀疏的离散表示（如单词的one-hot编码）转换为低维、密集的向量表示（称为嵌入向量）。这种向量表示能够捕捉词汇之间的语义关系。

工作原理

离散到连续映射：嵌入层通过查找表（类似于一个矩阵）将每个输入单词映射到一个固定维度的向量。假设词汇表中有 VVV 个词，每个词被映射为一个 ddd 维向量。嵌入层的查找表本质上是一个 V×dV \times dV×d 的矩阵。
每次输入一个词，它会在嵌入矩阵中查找到对应的行，作为该词的向量表示。