LSTM模型分析

遗忘门,f=sigmoid(Wf(x(t),h(t-1))+bf),遗忘门根据输入数据和上一时刻的输出来决定哪些信息需要被遗忘

输入门,i=sigmoid(Wi(x(t),h(t-1))+bi)

更新门,g=tanh(Wg(x(t),h(t-1))+bg),输入们和更新门共同决定哪些重要信息需要被记忆

输出门,o=sigmoid(Wo(x(t),h(t-1))+bo),决定当前状态的输出

一,输入维度和输出维度的问题

假设在NLP任务中,有一段输入序列,每个输入词嵌入的维度设定为300,即词嵌入为300维,假设隐藏神经元设定为100,即c(0)初始为100维的0,对两个数据进行拼接后得到input.

在遗忘门中,此时input已经拼接为(400,)的输入,此时W维度为(100,400),经过计算后,发现遗忘门的输出也为(100,),与初始c(0)的维度相同,此时会发现无论点乘还是相加,都可以正常进行.

各位可以思考一下其它门的输出,与遗忘门中的逻辑相通.

NLP任务中的一个小例子:

将输入序列长度统一在20,每个词嵌入的维度为300,假设在训练中将每批训练的数据个数为16,隐藏神经元为100,则每次输出h(t)维度即为(16,100).

如有不正确的地方,感谢各位提出,我会进行改正.

二,LSTM模型主要做的一些下游任务

LSTM是RNN的一种版本,它的特点是具有时间循环结构,LSTM具有长依赖性,能够更好地刻画具有长时空关联的序列数据,包括时间序列数据(气温、车流量、销量等)、文本、事件(购物清单、个人行为)等等。

在自然语言处理领域,大家经常用LSTM对语言建模,即用LSTM提取文本的语义语法信息,然后和下游模型配合起来做具体的任务,比如分类、序列标注、文本匹配等等。因为在某些任务中,需要基于时间序列来预测接下来要发生的事情,就需要用到LSTM模型。

如有抄袭,感谢各位提醒,我会进行删除修改。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值