nlp笔记

最新推荐文章于 2022-11-07 18:19:56 发布

アナリスト

最新推荐文章于 2022-11-07 18:19:56 发布

阅读量378

点赞数

文章标签： nlp 深度学习

本文链接：https://blog.csdn.net/fearlesslpp/article/details/88958579

版权

本文深入探讨了RNN、LSTM和GRU在自然语言处理中的应用。介绍了LSTM的遗忘门、输入门和输出门机制，以及GRU对LSTM的简化。LSTM和GRU在长短期记忆和信息传递方面具有优势，适用于序列标注、语言模型和文本生成等任务。此外，还提到了词袋模型、N-Gram和序列标注在NLP中的角色。

摘要由CSDN通过智能技术生成

                    
                        
                    
                    经典RNN的输入和输出序列长度相等，此外还有N vs 1 RNN（如句子情感分析）和1 vs N RNN（如image caption）；
LSTM外部结构和RNN一样，只是内部结构不同；LSTM有遗忘门、输入门和输出门；
 （LSTM上面一层传输的是cell state即Ct，类似传输带；LSTM利用各种gates来remove or add信息到cell state；LSTM下面一层传输的是hidden state即ht）
 （cell state或Ct倾向于不改变信息（因为Ct是Ct-1的线性函数）；hidden state或ht倾向于改变信息（因为ht-1和xt拼接后，要么跟上sigmoid网络层，要么跟上tanh网络层，或者简单说，ht不是ht-1的线性函数）；）
 （gates由a sigmoid neural net layer and a pointwise multiplication operation构成；）
 （为啥gates不能由tanh网络层+逐元素相乘操作 构成呢？因为tanh的取值范围不是（0,1）？而gates是指，让信息通过0%、50%、100%，不能是负数，应该是这意思；）
 （因为LSTM cell中有3个sigmoid网络层、3个逐元素乘法，所以LSTM有3个gates；）
 （LSTM一共6个公式，其中4步得到Ct，6步得到ht，注意：ht计算用到Ct，而且ht不仅传给下一时刻，也作为输出，所以ht更重要，是最终目的；）
 （ps：RNN只有ht，LSTM设计了Ct，后来GRU又把ht和Ct合并为ht；）
 （LSTM第一个门是遗忘门，即ft； 第二个门是输入门，即it和Ct拔，其中Ct拔是新产生的信息，而it是作用于Ct拔的(遗忘)门，注意Ct拔来自h和x，和Ct-1无关，Ct拔将被add到Ct；）
 （第4个公式，由Ct-1、Ct拔得到Ct，可理解为‘忘记一部分老的信息，新加上一部分新的信息’；）
 （第三个门是输出门，即ot和ht，其中ot是作用于tanh（Ct）的(遗忘)门，即选择性的输出信息；）
 （有些LSTM变体更复杂，比如对每个或部分sigmoid网络层加了peephole connections，即把Ct-1或Ct也作为输入；）
 （GRU将遗忘门和输入门合并为update gate；同时将cell state和hidden state合并；）
 （LSTM有6个公式（LSTM网站是有偏置版本，CS224 Lecture 9是无偏置版本）；GRU只有4个公式（都是无偏置），GRU是对LSTM的简化！）
 （GRU长程依赖对应update gate活跃，短程依赖对应reset gate活跃；）
 （LSTM或GRU训练的参数是每个cell中的W和b，即每个sigmoid或tanh网络层（但不包括逐元素的tanh操作，这个没有需要训练的参数），sigmoid或tanh可看成是把输入规格变为合适的输出规格（比如13与32相乘变为1*2）；）
RNNCell是tf对rnn的单步建模&

                

最低0.47元/天解锁文章

アナリスト

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
nlp笔记

经典RNN的输入和输出序列长度相等，此外还有N vs 1 RNN（如句子情感分析）和1 vs N RNN（如image caption）；LSTM外部结构和RNN一样，只是内部结构不同；LSTM有遗忘门、记忆门和输出门；LSTM需要训练的参数是每个小矩形中的W和b，即每个sigmod或tanh（但不包括逐元素的tanh操作，这个没有需要训练的参数），sigmod或tanh可看成是把...
复制链接

扫一扫