可能我这种分享方式并不利于其他同学找到相关内容,但是这样好方便啊,所以我就截图了。
这是一篇2015年的CVPR,但是后来改成了TPAMI,文章很经典,总结了整个序列模型的在三个任务上的应用。
本文是基于caffe框架实现的LSTM模型的训练,但是测试的时候,关于如何通过预测word来输入到LSTM模型,代替标注word,还未搞清楚
希望懂得同学告诉我inference的方法。
在这里正是留下这个问题:
当时用caffe做LSTM训练的时候,input_sentence通过编码输入到LSTM模型,然后生成predit_words,但是input_sentence和predict_words的维度都是(T, N, Dim),因此通过一个T个时刻的输入得到T个时刻的预测words。当测试的时候,是没有input_sentence的,所以无法输入到LSTM, 往往通过当前时刻的predict_word输入到下一时刻,代替原先的input_sentence word,可是按照blob是T时刻的,如何能一个一个time step的得到predict_word啊?