端到端记忆网络（End-to-End Memory Networks）

six.学长

已于 2024-06-27 15:21:40 修改

阅读量678

点赞数 24

分类专栏：深度学习 Transformer 文章标签：人工智能机器学习深度学习

于 2024-06-27 14:36:59 首次发布

本文链接：https://blog.csdn.net/m0_51200050/article/details/140013054

版权

62 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

端到端记忆网络（End-to-End Memory Networks）是引入了一个外部记忆组件，用于存储输入信息，并通过递归注意力机制动态地访问这些信息。为了详细解释这个概念，让我们分几个部分进行：

外部记忆组件可以看作是一个外部存储器，类似于计算机中的RAM，它存储输入序列中的信息。每个单元（memory slot）存储输入序列的一部分信息，整个记忆组件可以存储大量的上下文信息。

当输入一个序列时（例如一句话），每个词或片段都会被编码并存储在记忆组件的不同单元中。假设输入序列是一个句子 “John went to the store. He bought some milk.”，这个序列会被分成几个部分，并存储在记忆组件中：

记忆网络通过递归注意力机制来访问和更新外部记忆组件。这种机制允许模型在多次迭代中逐步聚焦于最相关的信息。

初始查询（Initial Query）：模型首先对输入问题或任务进行编码，生成初始查询向量（query vector）。例如，输入问题 “What did John buy?” 会被编码成一个查询向量 $q$ 。
计算注意力权重（Attention Weights）：使用查询向量 $q$ 与记忆组件中每个单元的内容进行相似度计算，生成注意力权重。相似度可以通过点积计算：
$\text{Attention Weight}(i) = \frac{q \cdot m_i}{\sqrt{d_k}}$
其中 $m_i$ 是第 $i$ 个存储单元的内容， $d_k$ 是向量的维度。
归一化权重（Normalization）：使用Softmax函数将相似度分数归一化为概率分布：
$a_i = \text{softmax}\left(\frac{q \cdot m_i}{\sqrt{d_k}}\right)$
其中 $a_i$ 是第 $i$ 个单元的注意力权重。
计算加权和（Weighted Sum）：根据注意力权重对记忆单元的内容进行加权求和，生成新的上下文向量（context vector）：
$\sum_i a_i m_i$
更新查询（Update Query）：使用新的上下文向量 $c$ 更新查询向量 $q$ ，然后重复上述过程。这可以通过一个简单的加权和或更复杂的函数（如前馈神经网络）来实现：
$q^{'} = f (q, c)$
其中 $f$ 是更新函数，可以是一个前馈神经网络。
多次迭代（Multiple Iterations）：模型可以多次重复上述步骤，每次迭代都可以进一步精炼查询向量，使其更准确地聚焦于相关信息。

假设我们有以下文本和问题：

文本：“John went to the store. He bought some milk.”

问题：“What did John buy?”

步骤：

存储信息：将文本拆分并存储在记忆组件中：
- 存储单元 1: “John went to the store.”
- 存储单元 2: “He bought some milk.”
初始查询：将问题编码为查询向量 $q$ 。
计算注意力权重：计算查询向量 $q$ 与每个存储单元的内容 $m_i$ 之间的相似度。例如，“He bought some milk.” 与问题 “What did John buy?” 的相似度较高，因此对应的注意力权重 $a_i$ 也较高。
计算加权和：根据注意力权重计算上下文向量 $c$ ，在这个例子中，“He bought some milk.” 的权重较大，因此上下文向量主要包含这个信息。
更新查询：使用上下文向量 $c$ 更新查询向量 $q$ ，使其更聚焦于相关的信息。
多次迭代：重复上述过程，逐步精炼查询向量，最终使模型能够准确地提取答案 “milk”。

端到端记忆网络通过引入外部记忆组件和递归注意力机制，能够动态地存储和检索信息，特别适用于需要处理复杂上下文和长距离依赖关系的任务。这种架构在简单语言问答和语言建模任务中表现出色，因为它能够有效地访问和利用存储的信息，从而提高理解和生成能力。

关注