深度理解机器学习19-自然语言处理前沿

最新推荐文章于 2024-04-07 11:08:08 发布

五百五。

最新推荐文章于 2024-04-07 11:08:08 发布

阅读量1k

点赞数 1

分类专栏：深度学习文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/clayhell/article/details/129056366

版权

深度学习专栏收录该内容

45 篇文章 2 订阅

订阅专栏

深度理解机器学习19-自然语言处理前沿

·评估长句中的梯度消失。

·将注意力机制模型描述为最先进的自然语言处理领域。

·评估一个特定的注意力机制架构。

·使用注意力机制开发神经机器翻译模型。

·使用注意力机制开发文本摘要模型。

注意力机制

神经机器翻译任务中，一个句子被一个单词一个单词地传递到编码器中，产生一个单独的思维向量，它将整个句子的意思嵌入到一个单独的表示中。然后解码器使用这个向量来初始化隐藏状态，并逐词产生翻译。在简单的编码器-解码器机制中，只有一个向量（thought vector）包含整个句子的表示。句子越长，单个思维向量就越难保持长期依赖性。LSTM装置的使用只是在一定程度上减少了问题。近来发展了一个新概念来进一步缓解梯度消失问题，这个概念被称为注意力机制。

简而言之，深度学习中的Attention可以广义地解释为重要性权重的向量：为了预测或推断一个目标元素（例如图像中的像素或句子中的单词），我们使用Attention向量来估计目标元素与其他元素相关联的程度，并将这些元素的值乘以Attention向量进行加权后得到的总和作为目标元素的近似值。

Attention机制诞生于神经机器翻译领域。在Attention出现之前，seq2seq模型是该领域广泛使用的模型。seq2seq模型诞生于语言建模领域（Sutskever, et al. 2014）。广义上讲，它旨在将输入序列（源）转换为新的序列（目标），并且两个序列都可以具有任意长度。例如，在文本或音频中的多种语言之间进行机器翻译、生成问答对话框，甚至将句子解析为语法树等，都属于这种转换任务。

试图翻译前面的句子时，传统的编码器-解码器的功能如下：1）逐字把句子传递给编码器。2）编码器产生一个单独的思维向量，代表整个句子编码。对于一个长句子（如前一个句子），即使使用LSTM，编码器也很难嵌入所有依赖项。因此，句子的前一部分没有句子的后一部分编码得那么强，这意味着句子的后一部分最终对编码有着决定性的影响。3）解码器使用思维向量来初始化隐藏状态向量以生成输出翻译。

对于翻译编码器-解码器模型，在生成逐词输出的同时，在给定的时间点，并非输入句子中的所有单词对于输出单词的确定都是重要的。注意力机制实现了一种方案，它正好做到了这一点：在确定输出时，用每个点上的所有输入单词来衡量输入句子的不同部分。一个训练有素的具有注意力机制的网络将学会对句子的不同部分应用适当的权重。这种模式允许输入句子的整个部分在确定输出的每一点上始终可用。因此，解码器可以访问特定于确定输出句子中每个单词的“思维”向量，而不只是访问一个思维向量。这种注意力机制的能力与传统的基于LSTM/GRU/RNN的编码器–解码器形成了鲜明的对比。