初学NLPday4笔记

本文介绍了基本的文本生成概念,通过上文生成下文,如'你瞅啥'到'瞅你咋地'。讨论了普通神经网络和RNN的结构,其中RNN通过隐藏状态来保存上下文信息。接着,深入解析了LSTM(长效短期记忆)网络,包括忘记门、记忆门、更新门和输出门,这些门控机制用于控制信息流动,有效解决了长序列依赖的问题。LSTM的cellstate是其核心,允许信息在时间线上连续传递,增强了模型的记忆能力。
摘要由CSDN通过智能技术生成

文本生成:

基本概念:通过上文生成下文,你瞅啥->瞅你咋地,你=x1,瞅=x2,啥=x3。

通过ML方法预测下文

普通神经网络:input为x1,x2,x3通过中间的隐层(hidden)输出结果output

 o=f(x+w*s)每一步进行展开就是RNN的结构,

如图所示,St-1=u(xt-1),St=f(W*st-1+u*xt-1) 

隐层:h1=f(w1x1+w2x2+w3x3)

激化方程为Δ×LR(=0.001)

W=Wt-1+Δ×LR->真实值

神经元最终输出基于最后一个s

Ot=softmax(Vst)

RNN:{x1->unfold

           x2->unfold

           .....

           x3->unfold}

简单来说,对于t=5来说,其实就是相当于把一个神经元拉伸成5个,换句话说,S就是我们所说的记忆。context(RNN)  RNN的计算量

LSTM(长效-短期-记忆)

分为三个单元:忘记门,记忆门,更新门

LSTM中最重要的是cell state,它一路向下,贯穿这个时间线,代表了记忆的纽带,它会被XOR和AND运算符进行运算来更新记忆。

而控制信息的增加和减少的,就是靠这一些阀门:Gate

阀门就是输出一个0与1之间的值:

1代表,把这一趟信息都记住

0代表都忘记

①忘记门:f(Wst-1+Uxt-1)=Ot-1

              St-1=f(Wst+Uxt)=Ot

             ft=\sigma (Wt*[ht-1*Xt]+bf)

②记忆门:1.用sigmoid决定更新信息(忘记旧的)

                   2.用Tanh造一个cell state

it=\sigma (Wt[ht-1,Xt]+bt)

Ct = tanh(Wc*[ht-1,Xt]+bc)

③更新门

t=fc*Ct-1+it*(~Ct)

④输出门

ht=\sigma (W*(ht-1*Xt)+bo)

ht = Ot*tanh(\epsilon t )

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值