nlp笔记

本文深入探讨了RNN、LSTM和GRU在自然语言处理中的应用。介绍了LSTM的遗忘门、输入门和输出门机制,以及GRU对LSTM的简化。LSTM和GRU在长短期记忆和信息传递方面具有优势,适用于序列标注、语言模型和文本生成等任务。此外,还提到了词袋模型、N-Gram和序列标注在NLP中的角色。
摘要由CSDN通过智能技术生成
  1. 经典RNN的输入和输出序列长度相等,此外还有N vs 1 RNN(如句子情感分析)和1 vs N RNN(如image caption);
  2. LSTM外部结构和RNN一样,只是内部结构不同;LSTM有遗忘门、输入门和输出门;
    (LSTM上面一层传输的是cell state即Ct,类似传输带;LSTM利用各种gates来remove or add信息到cell state;LSTM下面一层传输的是hidden state即ht)
    (cell state或Ct倾向于不改变信息(因为Ct是Ct-1的线性函数);hidden state或ht倾向于改变信息(因为ht-1和xt拼接后,要么跟上sigmoid网络层,要么跟上tanh网络层,或者简单说,ht不是ht-1的线性函数);)
    (gates由a sigmoid neural net layer and a pointwise multiplication operation构成;)
    (为啥gates不能由tanh网络层+逐元素相乘操作 构成呢?因为tanh的取值范围不是(0,1)?而gates是指,让信息通过0%、50%、100%,不能是负数,应该是这意思;)
    (因为LSTM cell中有3个sigmoid网络层、3个逐元素乘法,所以LSTM有3个gates;)
    (LSTM一共6个公式,其中4步得到Ct,6步得到ht,注意:ht计算用到Ct,而且ht不仅传给下一时刻,也作为输出,所以ht更重要,是最终目的;)
    (ps:RNN只有ht,LSTM设计了Ct,后来GRU又把ht和Ct合并为ht;)
    (LSTM第一个门是遗忘门,即ft; 第二个门是输入门,即it和Ct拔,其中Ct拔是新产生的信息,而it是作用于Ct拔的(遗忘)门,注意Ct拔来自h和x,和Ct-1无关,Ct拔将被add到Ct;)
    (第4个公式,由Ct-1、Ct拔得到Ct,可理解为‘忘记一部分老的信息,新加上一部分新的信息’;)
    (第三个门是输出门,即ot和ht,其中ot是作用于tanh(Ct)的(遗忘)门,即选择性的输出信息;)
    (有些LSTM变体更复杂,比如对每个或部分sigmoid网络层加了peephole connections,即把Ct-1或Ct也作为输入;)
    (GRU将遗忘门和输入门合并为update gate;同时将cell state和hidden state合并;)
    (LSTM有6个公式(LSTM网站是有偏置版本,CS224 Lecture 9是无偏置版本);GRU只有4个公式(都是无偏置),GRU是对LSTM的简化!)
    (GRU长程依赖对应update gate活跃,短程依赖对应reset gate活跃;)
    (LSTM或GRU训练的参数是每个cell中的W和b,即每个sigmoid或tanh网络层(但不包括逐元素的tanh操作,这个没有需要训练的参数),sigmoid或tanh可看成是把输入规格变为合适的输出规格(比如13与32相乘变为1*2);)
  3. RNNCell是tf对rnn的单步建模&
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值