初学NLPday4笔记

WJY991202

已于 2022-11-17 10:46:59 修改

阅读量320

点赞数 1

文章标签：深度学习人工智能

于 2022-11-15 20:43:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WJY991202/article/details/127872605

版权

本文介绍了基本的文本生成概念，通过上文生成下文，如'你瞅啥'到'瞅你咋地'。讨论了普通神经网络和RNN的结构，其中RNN通过隐藏状态来保存上下文信息。接着，深入解析了LSTM（长效短期记忆）网络，包括忘记门、记忆门、更新门和输出门，这些门控机制用于控制信息流动，有效解决了长序列依赖的问题。LSTM的cellstate是其核心，允许信息在时间线上连续传递，增强了模型的记忆能力。

摘要由CSDN通过智能技术生成

文本生成：

基本概念：通过上文生成下文，你瞅啥->瞅你咋地，你=x1,瞅=x2,啥=x3。

通过ML方法预测下文

普通神经网络：input为x1,x2,x3通过中间的隐层（hidden)输出结果output

o=f(x+w*s)每一步进行展开就是RNN的结构，

如图所示，St-1=u(xt-1),St=f(W*st-1+u*xt-1)

隐层：h1=f(w1x1+w2x2+w3x3)

激化方程为Δ×LR（=0.001）

W=Wt-1+Δ×LR->真实值

神经元最终输出基于最后一个s

Ot=softmax(Vst)

RNN:{x1->unfold

x2->unfold

.....

x3->unfold}

简单来说，对于t=5来说，其实就是相当于把一个神经元拉伸成5个，换句话说，S就是我们所说的记忆。context(RNN) RNN的计算量

LSTM（长效-短期-记忆）

分为三个单元：忘记门，记忆门，更新门

LSTM中最重要的是cell state,它一路向下，贯穿这个时间线，代表了记忆的纽带，它会被XOR和AND运算符进行运算来更新记忆。

而控制信息的增加和减少的，就是靠这一些阀门：Gate

阀门就是输出一个0与1之间的值：

1代表，把这一趟信息都记住

0代表都忘记

①忘记门：f(Wst-1+Uxt-1)=Ot-1

St-1=f(Wst+Uxt)=Ot

$ft=\sigma (Wt*[ht-1*Xt]+bf)$

②记忆门：1.用sigmoid决定更新信息（忘记旧的）

2.用Tanh造一个cell state

$it=\sigma (Wt[ht-1,Xt]+bt)$

$Ct = tanh(Wc*[ht-1,Xt]+bc)$

③更新门

t=fc*Ct-1+it*(~Ct)

④输出门

$ht=\sigma (W*(ht-1*Xt)+bo)$

$ht = Ot*tanh(\epsilon t )$

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初学NLPday4笔记

简单来说，对于t=5来说，其实就是相当于把一个神经元拉伸成5个，换句话说，S就是我们所说的记忆。LSTM中最重要的是cell state,它一路向下，贯穿这个时间线，代表了记忆的纽带，它会被XOR和AND运算符进行运算来更新记忆。基本概念：通过上文生成下文，你瞅啥->瞅你咋地，你=x1,瞅=x2,啥=x3。如图所示，St-1=u(xt-1),St=f(W*st-1+u*xt-1)o=f(x+w*s)每一步进行展开就是RNN的结构，①忘记门：f(Wst-1+Uxt-1)=Ot-1。通过ML方法预测下文。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。