论文笔记之:Natural Language Object Retrieval

论文笔记之:Natural Language Object Retrieval

2017-07-10  16:50:43  

 

  本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别。大致流程图如下:

  

 

  此处,作者强调了一点不同之处:

  Natural language object retrieval differs from text-based image retrieval task as it involves spatial information about objects within the scene and global scene context. (自然语言物体的检索 与 基于文本的图像检索任务 是不同的,因为其涉及到:在场景内部的关于物体的空间信息,以及全局的场景信息)。本文通过 recurrent network 来实现 query text, local image descriptor, spatial configurations and global context features,然后输出是:文本和 proposal 之间的相符程度的得分。与此同时,也可以将 visual-linguistic knowledge 从 image caption 领域借鉴到我们的任务当中。

  作者发现:简单的将 text-based image retrieval system 来直接做这个任务,得到的效果并不是非常好,因为自然语言物体检索涉及到 物体的空间信息 以及 场景中全局信息。利用 RNN 作为 scoring function有如下的好处:

  1. 整个模型可以通过 反向传播 来进行end to end 的训练,使得 visual feature extraction 和 text sequence embedding 可以相互影响。实验表明这种方向比 bag of words 效果要好很多。

  2. 可以很简单的利用 大型 image-text datasets 来学习一个 vision-language model 来协助该任务的完成。

  

  但是,这个任务有一个比较大的挑战是:the lack of large scale datasets with annotated object bounding box and description pairs. 

  To address this issue, we show that it allows us to transfer visual-linguistic knowledge learned from the former task to the latter one by first pretraining on the image caption domain and then adapting it to the natural language object retrieval domain. 
  这种 pre-training 和 adaptation 的过程不但提升了性能,而且避免了过拟合,特别是当 the object retrieval training dataset 比较小的时候。

  

  本文的网络结构 和 大致示意图 如下所示:

  

 

  训练所用到的损失函数为: 

  

 

 


 

   简单而言,其实就是:

  利用给定的图像,BBOX的位置信息,以及检索的语言。。。

  然后基于此给出一个网络结构的预测,在去比较该结果和给定的语言描述之间的 loss 。。。

  从而完成整个网络的训练。。。。

  

  在测试的时候,就可以将 proposal 替换掉 原始 GT image  patch,然后就可以利用这个语言模型,给各个 proposal 进行打分了。。。

  最终选择一个最佳的 proposal 作为检测的结果。。。

  

 

  

转载于:https://www.cnblogs.com/wangxiaocvpr/p/7146851.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
自然语言和视觉连接是一种研究方法,旨在通过语言和图像的融合,改进车辆检索系统。这种方法利用了自然语言处理和计算机视觉的技术,以实现更准确和智能的车辆检索。 在过去的几年中,对于车辆拍摄的图像进行自动检索的研究得到了迅速的发展。传统的车辆检索方法主要基于图像中的颜色、纹理和形状等视觉特征。然而,这些方法往往存在局限性,无法捕捉到车辆的更细致特征,也无法解决语言和图像之间的关联问题。 自然语言和视觉连接的研究方法通过融合语言和图像的信息,使车辆检索系统具备了更强的智能化能力。该方法首先通过自然语言处理技术,将用户的描述或查询翻译成机器可理解的语义表示。然后,利用计算机视觉技术,对图像进行分析和处理,提取出视觉特征。最后,将语义表示和视觉特征进行匹配,以实现车辆检索。 这种连接语言和视觉的方法可以克服传统车辆检索方法的局限性,实现更准确和智能的车辆检索。通过语言的引导,系统能够更好地理解用户的查询意图,并从图像中精确地捕捉到车辆的特征。同时,通过与视觉信息的融合,系统能够提供更全面和准确的搜索结果,提高了检索的准确性和效率。 总而言之,连接语言和视觉的研究方法为自然语言驱动的车辆检索系统的发展带来了新的机遇。这种方法通过融合语言和图像信息,提高了车辆检索的准确性和智能化程度,为用户提供更好的检索体验。随着自然语言处理和计算机视觉技术的不断进步,我们相信连接语言和视觉的车辆检索方法将在未来取得更多的突破和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值