junhyukoh的lstm代码解析

最新推荐文章于 2023-04-28 11:30:55 发布

DRer

最新推荐文章于 2023-04-28 11:30:55 发布

阅读量2k

点赞数

分类专栏： Deep-Learn ML

本文链接：https://blog.csdn.net/chenhuahui1993/article/details/51010050

版权

Deep-Learn 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

代码地址 https://github.com/junhyukoh/caffe-lstm
此代码是junhyukoh用于生成序列的一个代码，其中有一个例子用于生成一组数。本文主要阐述该例子，并谈谈对lstm的简单理解。本人刚接触DNN两个月，只会caffe一点皮毛，torch，theano等不会使用，caffe下的RNN代码不多，本文是其中一个。据说Jeff Donahue’s 的lstm代码即将并入caffe。

一、lstm生成序列例子
本例中随机生成320个数字序列，作为训练样本。构造LSTM网络（分别构造了15个隐藏节点1层LSTM，50个隐藏节点1层LSTM，7个隐藏节点3层LSTM，23个隐藏节点3层LSTM。http://ethereon.github.io/netscope/#/editor 可以根据prototxt生成网络图，挺漂亮），预测不同长度的序列。经过训练之后，无测试数据，让网络自身输出序列。最终拟合的结果还是不错的。
1层STML
测试时，没有输入，如何输出呢？思想是定位到最开始，一个一个输出。有如下代码：

  for (int i = 0; i < TotalLength; ++i) { 
    test_clip_blob->mutable_cpu_data()[0] = i > 0; //这句话没看懂啊！
    const vector<Blob<float>* >& pred = test_net->ForwardPrefilled();
    CHECK_EQ(pred.size(), 1);
    CHECK_EQ(pred[0]->count(), 1);
    //sequence.cpu_data()[i]是真实数据，*pred[0]->cpu_data()是网络输出数据
    log_file << sequence.cpu_data()[i] << " " << *pred[0]->cpu_data() << std::endl;
  }

二、lstm简单理解
Andrej Karpathy的直觉RNN http://karpathy.github.io/2015/05/21/rnn-effectiveness/
有一篇好的翻译博客：http://blog.csdn.net/leo_is_ant/article/details/50411020

个人理解，通过网络的展开（序列有几个数字，网络展开就有多少个）学习，网络学习到了输入的数据。也可以理解为一种拟合，用于预测下一个数据或后面几个数据。LSTM是RNN的一个小trick，解决了长时记忆问题，直觉上说，LSTM自带长时记忆。下一篇将详细介绍LSTM。

DRer

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
junhyukoh的lstm代码解析

代码地址 https://github.com/junhyukoh/caffe-lstm 此代码是junhyukoh用于生成序列的一个代码，其中有一个例子用于生成一组数。本文主要阐述该例子，并谈谈对lstm的简单理解。本人刚接触DNN两个月，只会caffe一点皮毛，torch，theano等不会使用，caffe下的RNN代码不多，本文是其中一个。据说Jeff Donahue’s 的lstm代码即
复制链接

扫一扫