《 MultiGrain: a unified image embedding for classes and instances》论文阅读笔记

主要亮点
(1)无论是用于分类任务还是检索任务,使用的特征是相同的,并且各自的表现都不错。但是对于分类任务是额外训练了一个线性分类器,而检索任务使用余弦距离。并不是我之前以为返回一系列图片,有完全一样的排在前面, 相似的在后面。

(2)RA的增强方式对提高检索精度有用的。RA即每个batch中有同一实例的不同增强版本。注意,分类任务训练时都是不同实例,同一实例的不同增强版本是在训练检索任务时加入的数据。

(3)通过简单地在ResNet后加一个GeM的池化层,使得可以用低分辨率的图片训练,然后测试时可以用高分辨率的图片,并且对于分类任务的精度会大大提升。

1 简介

使用了两个loss,交叉熵for classify,ranking loss / contrastive lossesfor instance。
使用GeM,这样使用低分辨率训练,但也能使用高分辨率图像作为检索图像。
分类的任务都达到了top1 79.3%的历史新高。

图像识别任务从粗到细分为:classes, instances, copies(对原图拷贝并且编辑了一些)

将这三个任务特化是专业做法,但对日常任务造成了瓶颈,因为人们在使用一个系统检索时可能希望进行着三种检索。

检索系统的表现主要由特征决定,它需要平衡数据库大小,匹配和检索速度、检索效率。

但如果只是将三个任务的特征狭隘地一起使用,其实等同于数据库翻了三倍,这是不可取的。
本篇文章提出了新的表示,能实现三个任务合一,尽管他们的语义细粒度不同。

这三个任务是相互有逻辑关系的,同一实例一定是同一类,同一拷贝一定是同一实例。所以类别、实例、拷贝一致时都会导致描述子在特征空间是靠近的。
但每个任务的相似程度是不同的,类别需要更多对类内差异的包容,而拷贝需要对微小的图片改动敏感。

使用了一个带指数参数p的广义平均池化 (generalized mean pooling ,GeM)将空间响应map转化成固定大小。p用于调节辨别性和不变性。这也是一种有效的学习,能学习到测试时接受不同分辨率的图片。

而且训练实例部分没有用新的标签。

2 相关工作

图像搜索:从局部特征到CNN。可能的提升可以使用几何验证,扩展查询,或者数据库这边的预处理和增强。

多任务训练:比较火的,因为神经网络被发现具有较好的迁移能力。尤其是训练被发现还有很多压缩空间。

数据集增强:对于本文的SGD,发现数据库中不仅包含不同的实例,当包含多个数据集增强的同一实例,很好地增强了数据达到了泛化的效果。

batch augmented (BA) sampling和本文提出的数据集增强很像。他们在对数据集增强时发现,当对于batch比较大时,增添同一图片的增强copy比较有用,而且减少了实践,因为copy处理操作相比增强要简单。

但本文使用的batch数目是固定的,但是其中不同实例的图片比较少。也叫 repeated augmentations (RA)。作者认为RA的方式对增强NN泛化能力的普遍适用的。

3 结构设计

给出了分类任务和检索任务的不同点以及如何弥补不同。因为本来就是希望给出分类和检索都适用的网络。

分类 检索
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值