参考文献语言模型 word2vec 循环神经网络：RNN Bi-LSTM LSTM长短期记忆，GRU Seq2seq 注意力

最新推荐文章于 2024-06-11 00:45:26 发布

2020小小酥

最新推荐文章于 2024-06-11 00:45:26 发布

阅读量953

点赞数

原文链接：https://zhuanlan.zhihu.com/p/51383402

版权

文章目录

参考文献
语言模型
word2vec
循环神经网络：RNN
Bi-LSTM
LSTM长短期记忆，GRU
Seq2seq
注意力

参考文献

知乎链接
[1]基于深度学习的智能问答系统研究

语言模型

统计语言模型和神经网络语言模型。
N-gram 是统计语言模型(用前n个词预测)
CBOW 和 Skip-gram 是神经语言模型

word2vec

CBOW:周围词（one-hot）处理为中心词的类似one-hot表示（每位表示概率）
skip-gram：中心词->周围词的类似one-hot的概率表示。

缺点：一个词一个向量，多义词无解

循环神经网络：RNN

在这里插入图片描述

输入和输出序列必有相同的时间长度
流程：输入一句话的时候（预测最后一个词），从左到右依次输入每一个词，每输入一个词会得到一个激活值，用来预测下一个词。
缺点：只用了上文信息

Bi-LSTM

缺点：一个时刻接一个时刻计算

LSTM长短期记忆，GRU

长短期记忆 LSTM:有 2 个传输状态，一个是tc （cell state）另一个是th （hidden state）。长短期记忆利用门的结构来精确控制加入或移除信息到 cell 状态
GRU:长短时记忆的一种简化结构
缺点：不能够解决长距离依赖的问题。

Seq2seq

在这里插入图片描述
接下来以机器翻译为例，看看如何通过Seq2Seq结构把中文“早上好”翻译成英文“Good morning”：

将“早上好”通过Encoder编码，并将最后 [公式] 时刻的隐藏层状态 [公式] 作为语义向量。
以语义向量为Decoder的 [公式] 状态，同时在 [公式] 时刻输入特殊标识符，开始解码。之后不断的将前一时刻输出作为下一时刻输入进行解码，直接输出特殊标识符结束。
当然，上述过程只是Seq2Seq结构的一种经典实现方式。与经典RNN结构不同的是，Seq2Seq结构不再要求输入和输出序列有相同的时间长度！

注意力

在Seq2Seq结构中，encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decoder解码。由于context包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个Context可能存不下那么多信息，就会造成精度的下降。除此之外，如果按照上述方式实现，只用到了编码器的最后一个隐藏层状态，信息利用率低下。
所以如果要改进Seq2Seq结构，最好的切入角度就是：利用Encoder所有隐藏层状态ht解决Context长度限制问题。