junhyukoh的lstm代码解析

最新推荐文章于 2024-04-17 17:39:31 发布

伙伴几时见

最新推荐文章于 2024-04-17 17:39:31 发布

阅读量397

点赞数

分类专栏：神经网络+深度学习

神经网络+深度学习专栏收录该内容

17 篇文章 3 订阅

订阅专栏

代码地址 https://github.com/junhyukoh/caffe-lstm
此代码是junhyukoh用于生成序列的一个代码，其中有一个例子用于生成一组数。本文主要阐述该例子，并谈谈对lstm的简单理解。本人刚接触DNN两个月，只会caffe一点皮毛，torch，theano等不会使用，caffe下的RNN代码不多，本文是其中一个。据说Jeff Donahue’s 的lstm代码即将并入caffe。

一、lstm生成序列例子
本例中随机生成320个数字序列，作为训练样本。构造LSTM网络（分别构造了15个隐藏节点1层LSTM，50个隐藏节点1层LSTM，7个隐藏节点3层LSTM，23个隐藏节点3层LSTM。http://ethereon.github.io/netscope/#/editor 可以根据prototxt生成网络图，挺漂亮），预测不同长度的序列。经过训练之后，无测试数据，让网络自身输出序列。最终拟合的结果还是不错的。
1层STML
测试时，没有输入，如何输出呢？思想是定位到最开始，一个一个输出。有如下代码：

  for (int i = 0; i < TotalLength; ++i) { 
    test_clip_blob->mutable_cpu_data()[0] = i > 0; //这句话没看懂啊！
    const vector<Blob<float>* >& pred = test_net->ForwardPrefilled();
    CHECK_EQ(pred.size(), 1);
    CHECK_EQ(pred[0]->count(), 1);
    //sequence.cpu_data()[i]是真实数据，*pred[0]->cpu_data()是网络输出数据
    log_file << sequence.cpu_data()[i] << " " << *pred[0]->cpu_data() << std::endl;
  }
 
 1
2
3
4
5
6
7
8