Imputer 模型摘要
本文介绍了由 William Chan 等人提出的 Imputer 模型,该模型是一种用于处理序列到序列任务的动态规划模型。
Imputer 的特点:
- 专注于单调对齐的序列到序列任务: Imputer 专门处理输入序列和输出序列之间存在单调对齐关系的任务。这意味着输入序列中的第 i 个元素对应于输出序列中的第 i 个元素。
- 适用于输入序列长度大于等于输出序列长度的任务: 由于 Imputer 依赖于输入和输出序列之间的单调对齐关系,因此它适用于输入序列长度大于等于输出序列长度的任务。
Imputer 的应用场景:
- 语音识别: 语音识别中,语音波形可以被分割成多个样本,每个样本对应一个单词。由于语音样本的顺序和单词的顺序保持一致,因此语音识别符合 Imputer 的单调对齐要求。
- 其他类似任务: Imputer 也适用于其他类似的序列到序列任务,例如音频转录、手写识别等。
Imputer 的工作原理:
- 利用动态规划: Imputer 使用动态规划来计算输入序列和输出序列之间的最佳对齐关系。
- 单调对齐约束: Imputer 通过引入单调对齐约束来限制对齐关系,确保输入序列和输出序列之间保持一致的顺序。
举例说明:
文章以语音识别为例,解释了 Imputer 的工作原理。假设输入语音波形被分割成 5 个样本,对应着 I
、like
、you
三个单词。Imputer 通过动态规划,找到每个样本与对应单词之间的最佳匹配关系,最终输出 I like you
。
总结:
Imputer 是一种专门针对单调对齐序列到序列任务的动态规划模型,它适用于输入序列长度大于等于输出序列长度的任务,例如语音识别等。Imputer 通过利用动态规划和单调对齐约束,能够有效地解决这类问题。
插值器是一个序列到序列模型,它在完全自回归模型(推理时间长)和完全非自回归模型(推理速度快)之间取得平衡。插值器通过利用动态规划实现了与序列长度无关的恒定解码时间。https://arxiv.org/abs/2002.08926摘要:本文介绍了插值器,一种神经序列模型,它通过插值迭代地生成输出序列。插值器是一种迭代式生成模型,只需要一个恒定的生成步骤数量,与输入或输出标记的数量无关。插值器可以被训练来近似地对输入和输出序列之间所有可能的对齐方式以及所有可能的生成顺序进行边缘化。我们提出了一种易于处理的动态规划训练算法,该算法对对数边际似然提供了下界。当应用于端到端语音识别时,插值器优于先前的非自回归模型,并取得了与自回归模型相当的结果。在 LibriSpeech test-other 上,插值器实现了 11.1 WER,优于 CTC 的 13.0 WER 和 seq2seq 的 12.5 WER。