seq2seq and Attention(一)

最新推荐文章于 2024-07-03 16:50:12 发布

qq_40729302

最新推荐文章于 2024-07-03 16:50:12 发布

阅读量248

点赞数

分类专栏：起步学习记录文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/qq_40729302/article/details/113142287

版权

起步学习记录专栏收录该内容

13 篇文章 0 订阅

订阅专栏

seq2seq and Attention(一)

声明：本文为学习https://lenavoita.github.io/nlp_course/seq2seq_and_attention.html 的笔记。喜欢阅读英文原文的请自行跳转。

最流行的sequence-to-sequence（序列到序列）任务是翻译：也就是说从一个自然语言到另一个自然语言。如下图所示：

在过去的几年中，商业系统在机器翻译方面变得出乎意料的出色，例如Google Translate，Yandex Translate，Deep Translate等。今天我们将学习这些系统的核心部分。

除了流行的在自然语言中的机器翻译，也可以对编程语言进行翻译，或者对任何的token序列你可以想到的。从现在开始，对于机器翻译，我们指的就是任何的sequence-to-sequence任务，也就是说在任何的tokens中进行翻译。

##基础的 sequence to sequence

一般的，在机器翻译任务中，我们有一个输入序列x1,x2,…，xm，一个输出序列y1,y2,…，yn（输入与输出序列的长度可能不同）。翻译可以认为是寻找与输入序列最接近的目标序列。目标序列可以看做最大化条件概率p（y|x）：y*=argmax p（y|x）。

如果你掌握了另一门的语言，并且可以可以很好的在两个语言进行翻译，你就会有一个关于p（y|x）的直觉，你或许这样形容这个直觉“emmm…，这个句子这样翻译会更自然一些”。但是在机器翻译中，我们学习一个函数p(y|x,theta) 带有一些参数，theta，然后找到基于输入序列的最大的y：y*=argmax p(y|x,theta).
在这里插入图片描述
定义一个机器翻译系统，我们需要回答下边这三个问题：

model----这个模型p(y|x,theta)是怎样的？
learning----如何找到参数theta？
inference----如何找到最好的y？

在本节中我们将会在最简单的model下回答第二和第三个问题，更“真实”的模型会在Aattention 和Transformer中讨论。

编码解码框架（Encoder-Decoder Framework）

编码-解码是标准的sequence-to-sequence 任务的标配。这个框架包含两个部分：
编码器：读取原序列产生源输入的表示
解码器：使用从编码器来的表示产生目标序列

编码器-解码器

在这个文章里，我们可能会看到不同的模型，但他们都有encoder-decoder结构。

条件语言模型

在语言模型的文章中，我们学习了去估计一个序列是y1，y2,…，yn的p（y）的概率。语言模型估计的是关于一个序列的y的非条件概率p（y），而sequence-to-sequence任务可以被认为是条件语言模型（CLM）-他的操作与语言模型很像，但是额外接收了源信息x。
CLM
注：条件语言模型不仅可以被认为是sequence-to-sequence任务的解决方案。更一般的说，x除了输入序列也可以是其他的东西。例如在“图像字幕”任务中，x就可以认为是图片，y是对图片的描述。

由于sequence-to-sequence与LM唯一的不同就是输入x的出现，模型和训练都与language model 即语言模型很相似。一般情况下，大致的训练流程如下所示：
将源序列和已经产生的目标序列输入到一个神经网络中。
从网络编码器中得到刚刚输入的向量表示（包括源输入和已经产生的目标序列）
从向量表示中预测下一个文本的概率分布。

在这里插入图片描述
和神经网络分类器一样和语言模型一样，我们可以用一个很简单的角度来认为分类部分（例如：如何得到一个token的概率分布从一个文本的向量表示中？）向量表示文本可能是d维的，而最后，我们需要一个|V|维的向量（V个tokens 或者类的概率分布）。为了从d维的向量得到一个|V|大小的向量，我们可以使用一个线性层，一旦有了|V|大小的向量，剩下的事情就是使用softmax函数将每一行的值变为概率分布。