papers
文章平均质量分 76
Issac_33
对未知的追求是生活的乐趣所在
展开
-
【论文笔记】Sequence to sequence Learning with Neural Networks
本文模型:https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/rnn/translate前一段时间在学习image caption,发现基本上所有的论文都引用了这篇论文以及另一篇。image caption的模型也很多都是sequence to sequence(encoder-decoder)的原创 2016-12-11 23:36:57 · 7511 阅读 · 2 评论 -
【论文笔记】Recurrent Neural Network Regularization
本文模型:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/models/rnn/ptb这篇文章引用量也是超高,总体来说因为他有一个大亮点,那就是Dropout on RNN! Overfit一直是困扰RNN的大问题,曾经有过不少实验对RNN加以dropout,但是效果都不好,因为循环放大了输入的噪声原创 2016-12-11 23:45:55 · 4349 阅读 · 0 评论 -
【论文笔记】Deep Visual-Semantic Alignments for Generating Image Description
虽然是两年前的一篇论文了,但AK留给大家以供学习的代码依然广为流传(neuraltalk,neuraltalk2)感谢AK大神对我们这些newbie们铺的路。。但怎么能只会使用不懂原理呢?查了一下发现网上对这篇论文的解释却十分鲜有。虽然说文章中特别有新意的地方个人感觉确实也不是很多,但思路还是蛮清晰的,有很大的启发意义,也是值得一读。下面跟大家分享一下我对这篇文章的理解以及自己的一些想法吧~如有不对原创 2017-03-09 22:03:40 · 3873 阅读 · 1 评论 -
【论文笔记】What Value Do Explicit High Level Concept Have in Vision to Language Problems?
不知道大家在接触image caption各种模型的时候有没有发现一些共同点,个人感觉无非是改CNN,改RNN和改衔接方式,这其中可能包含几个问题。 CNN提取出的特征图虽然很适合图像问题,但作为输入直接衔接到翻译问题中合适吗? CNN的输出要怎么加入到RNN中才能更好的使图像中的注意力信息被文本化呢? 多次输入效果真的不如单次好吗,如果多次输入不同呢? 还有最原始的问题,RNN对长句子的遗原创 2017-03-20 18:24:08 · 3352 阅读 · 1 评论 -
【论文笔记】Show and Tell: Lesson learned from the 2015 MSCOCO Image Captioning Challenge
AK在其开源的neuraltalk和neuraltalk2项目中和此模型进行比较其相似之处,并承认说“but the Google release should work significantly better as a result of better CNN, some tricks, and more careful engineering.“那今天就以此出发,比较一下NIC(Neural原创 2017-03-13 17:05:13 · 2211 阅读 · 0 评论