瞥一眼图像对人来说足以指出或描述出一个图像的大量细节。可是,这样出色的能力对于我们的图像识别模型来说是难以企及的。之前大部分工作都是给固定类别的做标签,不具有语言描述能力。
neuraltalk所要实现的目标:
-
其一,标签属于弱标签。即只告诉你一张图片对应的语言描述,但语言描述的物体的具体位置在哪里并不标示出来。通过这样的方式建立两者的联系。
-
其二,即使知道图片中有什么,我们还无法组织成语言。这个任务就是利用某个模型组织成自然语言,当然语言中单词的个数限制是不存在的,也不同于前人利用语言模板生成语言描述的方法。这是一种更加有效的方法。
下面是基本思想。
首先要知道图片里有什么,即物体检测。说到物体检测,我们回想起来RCNN,这是比较传统也经过了锤炼的方法。使用ImageNet200类检测挑战上的模型,并且进行过微调。我们将连接CNN的最后一层去掉,即全连接层不通过softmax,而是取输出4096维的全连接层作为最后一层,然后将4096维的输出通过另一个网络。
CNN(I)这一项即4096维输出,W权重为h*4096。即我们最后的到的是一个包含图像信息的h维向量。
到此,图像