Task
Semantic Regularisation for Recurrent Image Annotation
- Image Annotation = multi-label classification + image captioning
- multi-label classification:不仅仅是图片中的视觉概念(实体)进行识别,更是要对之描述,因此labels包括属性、物体、动作、关系等,输出是一系列标签。
- image captioning:使用一个完整的自然语言文本对图像进行描述,输出是一句话
Motivation
现有的模型 一般由CNN-RNN的enc-dec模型解决以上任务,常使用CNN隐藏层或其变式作为image embedding,在CNN和RNN之间作为交接点,这样的方法使得RNN具有两大主要任务:对视觉概念进行预测和对他们之间的关系进行建模并生成由结构的描述输出(对于classification任务输出一个列表,对于captioning任务输出一句话)。
但这样的方法的 缺点 在于:CNN提取的特征不具有明确的语义,RNN需要预测concepts并对关系进行建模任务过重,使用RNN的梯度进行后传训练CNN具有较大难度,而且RNN的噪音对CNN的训练也会产生影响。
因此,本文提出 了一个语义合理化的embedding层作为CNN和RNN之间的交接点,形成sem