<论文阅读01> Learning Multi-Instance Deep Discriminative Patterns for Image Classification

引入

  题目学习用于图像分类的多示例深度判别模式(Learning Multi-Instance Deep Discriminative Patterns for Image Classification)
  代码
  摘要:找到有效且高效的表示对于图像分类非常重要。最常见的方法是提取一组局部描述符,然后将它们聚合成一个高维、更具语义的特征向量,例如无监督的特征包和基于部分的弱监督模型。由于使用了来自图像标签的信息,后者通常比前者更具辨别力。在本文中,我们提出了一种弱监督策略,该策略使用多示例学习 (MIL) 来学习图像表示的判别模式。特别是,我们扩展了传统的多示例方法,以显式学习正类中的多个模式,并为每个模式找到“最正”的实例。 此外,由于实例的积极性被视为一个连续变量,我们可以 使用随机梯度下降来最大化不同模式之间的边距 ,同时考虑 MIL 约束。为了使学习到的模式更具辨别力,选择了由深度卷积神经网络提取的局部描述符,而不是手工制作的描述符。

@article{Peng:2017:3385,
  author	=	{Tang, Peng and Wang, Xinggang and Feng, Bin and Liu, Wenyu},
  journal	=	{IEEE Transactions on Image Processing}, 
  title		=	{Learning Multi-Instance Deep Discriminative Patterns for Image Classification}, 
  year		=	{2017},
  volume	=	{26},
  number	=	{7},
  pages		=	{3385-3396},
  doi		=	{10.1109/TIP.2016.2642781}}

1 方法概述

  在本文中,我们建议学习多示例深度判别模式(MiDDP)。我们的方法受到 Max-margin Multi-instance Dictionary Learning (MMDL) 框架的启发。对于每个类,我们使用多示例学习 (MIL) 来学习一些判别模式,通过将该类中的图像视为正面而将其余图像视为负面。并受松弛多示例支持向量机 (RMI-SVM) 策略的启发,我们使用最大模型而不是 RMI-SVM 中的噪声或 (NOR) 模型来放松 MIL 约束。
  通常 MIL 只关注单正模式问题,但当情况是存在多正模式时,就需要扩展 MIL 以适应这种情况。显然,我们需要找到一种方法来处理图像分类的这个问题,因为图像中总是存在多个模式。在 MiDDP 中,我们在考虑 MIL 约束的情况下最大化每个模式之间的边距。但是正图像中的补丁标签很难直接获得,因此我们将其视为潜在值,使用潜在支持向量机(LSVM)来训练模型。使用我们的 MiDDP 策略,每个类只需要 9 个模式,这比其他方法要小得多。

2 关键技术

在这里插入图片描述

一系列的优化目标。。。

主要贡献

  1. 一种以弱监督方式学习判别模式的新方法,作为图像分类的语义词典。 所提出的图像分类方法在各种基准测试中获得了最先进的性能。
  2. 一种有效且稳健的优化方法,受 PEGASOS 启发,通过随机梯度下降来解决一类多示例学习问题,每个类都有多个正模式。

数据集

  1. Action 40 总结了 9,532 张图像,包含 40 类不同的人类动作,例如“鼓掌”、“吹泡泡”、“弹吉他”等。
  2. Caltech 101 包含 9,144 张图像,分为 102 个类别,其中包括一个背景类别。
  3. MIT-indoor 是一个非常具有挑战性的场景分类数据集。 MIT-indoor 共有 67 类室内场景,共 15,620 张图像。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值