lstm原理_LSTM: A Search Space Odyssey论文笔记

摘要:

自1995年以来,已针对循环神经网络提出了长期短期记忆(LSTM)架构的几种变体。近年来,这些网络已成为解决各种机器学习问题的最新模型。引起了人们对LSTM变体的作用和实用性的兴趣。在本文中,我们针对3种代表性任务,8个LSTM变体进行了首次大规模分析,包括:语音识别,手写识别和和弦音乐建模。使用随机搜索分别优化了每个任务的所有LSTM变体的超参数,并使用功能强大的fANOVA框架评估了它们的重要性。我们的结果表明,这些变体都无法在标准LSTM体系结构上显着改善,并表示遗忘门和输出激活函数是其最重要的部分。

VANILLA LSTM

LSTM的主要原理是使用一个记忆单元来存储长时间的序列信息,然后通过一个非线性的门单元来控制信息的流入和流出。经典的VANILLA LSTM如图:

50ee48e1365231261ebda2d708193b21.png

它具有三个门(输入,遗忘,输出),block输入,一个cell,一个输出激活函数,窥视孔连接。每个block的输出循环的连接到自己block的输入和所有的门。

Forward Pass

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值