Selection Mechanism(选择机制)
首先,我们识别了先前模型的一个关键限制:在输入依赖的情况下有效选择数据的能力(即,关注或忽略特定输入)。基于选择性复制和归纳头等重要的合成任务的直觉,我们通过基于输入参数化SSM参数,设计了一个简单的选择机制。这使得模型能够过滤掉不相关的信息,并无限期地记住相关信息。
具体改进措施如下:
-
输入依赖的参数化:
- 通过让状态空间模型(SSM)的参数依赖于输入数据,模型能够动态调整其参数以适应当前输入,从而增强了对不同类型数据的处理能力。
- 例如,在处理一段文本时,模型可以根据当前单词的特性调整参数,以更好地记住重要信息并忽略无关信息。
输入依赖的参数化状态空间模型(SSM)通过以下几个步骤实现:
1. 参数化机制的设计
在传统的状态空间模型中,模型的参数通常是固定的,即在整个训练和推理过程中不随输入数据的变化而改变。而在输入依赖的状态空间模型中,模型的参数会根据当前的输入数据动态调整。这一机制可以通过以下方式实现:
- 嵌入层(Embedding Layer):将输入数据映射到一个高维向量空间。这些嵌入向量包含了输入数据的特征信息。
- 参数生成网络(Parameter Generation Network):利用嵌入向量,通过一个小型的神经网络(通常是多层感知机,MLP),生成状态空间模型的参数。这个网络的输出就是随输入数据变化的动态参数。
2. 动态参数的生成
假设我们有一个输入序列 { x 1 , x 2 , … , x T } \{x_1, x_2, \ldots, x_T\} { x1,x2,…,xT},每个 x t x_t xt都是输入序列中的一个元素。对于每个 x t x_t xt,我们计算其嵌入向量 e t e_t et:
e t = Embedding ( x t ) e_t = \text{Embedding}(x_t) et=Embedding(xt)
然后,将嵌入向量输入到参数生成网络中,生成与 x t x_t x