Semantic Regularisation for Recurrent Image Annotation

本文提出了一种语义正则化的CNN-RNN模型,用于图像注解任务,解决了现有模型中CNN特征缺乏语义明确性和RNN建模任务过重的问题。通过引入语义合理化的embedding层,改善了CNN的预测能力,增强了RNN学习概念关系和生成文本的效果。实验表明,该模型在多标签分类和图像字幕任务上达到了最先进的性能。
摘要由CSDN通过智能技术生成

Task

Semantic Regularisation for Recurrent Image Annotation

  • Image Annotation = multi-label classification + image captioning
  • multi-label classification:不仅仅是图片中的视觉概念(实体)进行识别,更是要对之描述,因此labels包括属性、物体、动作、关系等,输出是一系列标签。
  • image captioning:使用一个完整的自然语言文本对图像进行描述,输出是一句话

Motivation

现有的模型 一般由CNN-RNN的enc-dec模型解决以上任务,常使用CNN隐藏层或其变式作为image embedding,在CNN和RNN之间作为交接点,这样的方法使得RNN具有两大主要任务:对视觉概念进行预测和对他们之间的关系进行建模并生成由结构的描述输出(对于classification任务输出一个列表,对于captioning任务输出一句话)。
但这样的方法的 缺点 在于:CNN提取的特征不具有明确的语义,RNN需要预测concepts并对关系进行建模任务过重,使用RNN的梯度进行后传训练CNN具有较大难度,而且RNN的噪音对CNN的训练也会产生影响。
因此,本文提出 了一个语义合理化的embedding层作为CNN和RNN之间的交接点,形成sem

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值