先来看看denesecap的效果,
对比之前的Image Caption
由单目标变成了多目标。
就好比之前的Image Classfication 发展到 Object Detection
其实Image Caption发展到densecap本质上也是借鉴了Faster RCNN进行Object Detection的手法。在一个前向运算中就完成了 Proposal 和 Caption的工作。
来看下Image Caption的结构
本质上是将Image经过卷积后得到的向量作为LSTM的输入,最后得到一个词的序列。
Faster-RCNN的结构可参考我的博客
http://blog.csdn.net/sunyiyou9/article/details/52434541,较为详细的介绍了Faster RCNN中的关键部分RPN网络的工作机理。
而RPN网络便是将单目标任务变成多目标任务的大杀器。
Image Caption + Faster RCNN = densecap