Multi-Cue Zero-Shot Learning with Strong Supervision阅读笔记CVPR2016收录

论文地址:https://arxiv.org/pdf/1603.08754.pdf

该论文被CVPR2016收录。当时,zero-shot learning的方法中,最好的依然是依靠着人工标注的属性。本文作者希望能够突破这一现状,利用网上多样的非结构化的文本数据实现全自动的算法,并且得到较好的效果。利用外部文本数据(如wikipedia语料库)的方法可以被称为利用附加数据的方法,这类方法的优点是:得到的属性覆盖的范围广,而且能够实现整个算法真正的无监督。此类方法的一个共同问题是:外部数据往往有噪声,而且不容易组织成针对特定分类目的的数据集。为了解决这些问题,作者构建了一个联合嵌入框架(joint embedding framework),将多样的文本信息和语义视觉信息映射到同一个空间中,并使用了一个强监督的方法来表示对象的视觉信息。最终该方法在识别和检索方面的zero-shot learning上取得了当时最好的效果。

本文的贡献:(1)提出了一种基于文本语料库和视觉信息的联合模型;利用外部语料库进行实现;(2)提出了一种新的无监督的词嵌入(language embedding)的方法,针对的是word2vec和BoW;(3)使用了一个强监督的方法,来获取对象的视觉信息表示,用以抵御附加数据带来的负面影响。(4)在zero-shot learning的算法中,该算法在一个数据集上取得了当时最好的结果。

zero-shot learning 多线索嵌入(zero-shot learning multi-Cue Embedding)
目前所有的zero-shot learning算法都基于一个基本理论:利用高维属性代替图片的低维特征,来进行分类器的学习,由于高维特征具有迁移性,因此,这种方式能够达到zero-shot learning的效果。上文已经提到,之前最好的方法利用的是人工的高维描述,这些高维描述比较准确,且针对性强,但是由于需要人工,所以往往很难针作用于大型的任务。为了解决这一问题,才出现了基于外部语料库的方式,使得高维描述的获取变得完全自动。但由于外部数据带有噪声,且针对性不强,使得这种方法最终的效果依然差于人工标注高维描述的效果。针对这一问题,作者使用multiple-cue的思想来联合表示属性,联合文本信息和视觉信息,得到了最终的算法。作者使用的该方法可以被称为多线索嵌入方法(multi-cue embedding)。简单来说,就是先利用外部语料库得到类别的多个方面(multiple language parts)的属性表示,这时属性表示已经确定下来了,再将图片中的对象进行多个方面(multiple visual parts)的表示,训练从样本对象到类别属性之间的映射(分类器),即可实现zero-shot learning。

算法内容

   构建算法的方式依旧是建立目标函数,加约束,得到最优化解。(机器学习的一般套路)设输入为x,输出为类别y,则分类器可以被定义为:


即输入x,得到分数最高的y,即为x<

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值