虽然是两年前的一篇论文了,但AK留给大家以供学习的代码依然广为流传(neuraltalk,neuraltalk2)感谢AK大神对我们这些newbie们铺的路。。但怎么能只会使用不懂原理呢?查了一下发现网上对这篇论文的解释却十分鲜有。虽然说文章中特别有新意的地方个人感觉确实也不是很多,但思路还是蛮清晰的,有很大的启发意义,也是值得一读。下面跟大家分享一下我对这篇文章的理解以及自己的一些想法吧~如有不对,请多指正!
注:只对文章整体流程以及部分重点内容进行摘要理解,并不是文章翻译。
Our approach leverages datasets of images and their sentence descriptions to learn about the inter-modal correspondences between language and visual data.
摘要第二句话就宏观的概括了全文。与最早期的m-RNN等模型相比,本文要leverage每张训练图片和对应