LSTM模型分析

最新推荐文章于 2023-10-22 10:51:23 发布

mmmllyy

最新推荐文章于 2023-10-22 10:51:23 发布

阅读量294

点赞数

分类专栏：自然语言处理文章标签： lstm 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mmmllyy/article/details/127601098

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

遗忘门,f=sigmoid(Wf(x(t),h(t-1))+bf),遗忘门根据输入数据和上一时刻的输出来决定哪些信息需要被遗忘

输入门,i=sigmoid(Wi(x(t),h(t-1))+bi)

更新门,g=tanh(Wg(x(t),h(t-1))+bg),输入们和更新门共同决定哪些重要信息需要被记忆

输出门,o=sigmoid(Wo(x(t),h(t-1))+bo),决定当前状态的输出

一，输入维度和输出维度的问题

假设在NLP任务中,有一段输入序列,每个输入词嵌入的维度设定为300,即词嵌入为300维,假设隐藏神经元设定为100,即c(0)初始为100维的0,对两个数据进行拼接后得到input.

在遗忘门中,此时input已经拼接为(400,)的输入,此时W维度为(100,400),经过计算后,发现遗忘门的输出也为(100,),与初始c(0)的维度相同,此时会发现无论点乘还是相加,都可以正常进行.

各位可以思考一下其它门的输出,与遗忘门中的逻辑相通.

NLP任务中的一个小例子：

将输入序列长度统一在20,每个词嵌入的维度为300,假设在训练中将每批训练的数据个数为16,隐藏神经元为100,则每次输出h(t)维度即为(16,100).

如有不正确的地方,感谢各位提出,我会进行改正.

二，LSTM模型主要做的一些下游任务

LSTM是RNN的一种版本，它的特点是具有时间循环结构，LSTM具有长依赖性，能够更好地刻画具有长时空关联的序列数据，包括时间序列数据(气温、车流量、销量等)、文本、事件(购物清单、个人行为)等等。

在自然语言处理领域，大家经常用LSTM对语言建模，即用LSTM提取文本的语义语法信息，然后和下游模型配合起来做具体的任务，比如分类、序列标注、文本匹配等等。因为在某些任务中，需要基于时间序列来预测接下来要发生的事情，就需要用到LSTM模型。

如有抄袭，感谢各位提醒，我会进行删除修改。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

mmmllyy CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

199万+: 周排名

36万+: 总排名

293: 访问

: 等级

10: 积分

0: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

LSTM模型分析 294

分类专栏

自然语言处理 1篇

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。