【阅读笔记】Revisiting Local Descriptor based Image-to-Class Measure for Few-shot Learning

Abstract

图像分类中的小样本学习旨在学习一个分类器来在每个类只有很少的训练示例可用时对图像进行分类。最近的工作取得了有希望的分类性能,其中通常使用基于图像级特征的度量。在本文中,我们认为,鉴于小样本学习中示例的稀缺性,这种级别的测量可能不够有效。相反,我们认为应该采用基于局部描述符的图像到类的度量,其灵感来自于它在局部不变特征的鼎盛时期令人惊讶的成功。具体来说,在最近的情景训练机制的基础上,我们提出了一个深度最近邻神经网络(简称 DN4)并以端到端的方式对其进行训练。它与文献的主要区别在于最后一层中基于图像级特征的度量被基于局部描述符的图像到类度量替换。该测量是通过对卷积特征图的深度局部描述符进行 k-最近邻搜索在线进行的。所提出的 DN4 不仅学习了图像到类度量的最佳深度局部描述符,而且在示例稀缺的情况下利用了这种度量的更高效率,这要归功于同一图像中视觉模式的可交换性类。我们的工作为小样本学习带来了一个简单、有效且计算效率高的框架。对基准数据集的实验研究始终显示其优于相关的最先进技术,其中最大的绝对改进为 17%,优于次优。

Method

如图 1 所示,DN4 主要由两部分组成:深度嵌入模块 Ψ图像到类测量模块 Φ。前者学习所有图像的深度局部描述符。使用学习的描述符,后者计算上述图像到类的度量。重要的是,这两个模块被集成到一个统一的网络中,并从头开始以端到端的方式进行训练。另外,请注意,设计的图像到类模块可以很容易地与任何深度嵌入模块一起使用。

深度嵌入模块

模块 Ψ 经常学习查询和支持图像的特征表示。可以使用任何适当的 CNN。请注意,Ψ 仅包含卷积层但没有完全连接层,因为我们只需要深度局部描述符来计算图像到类的度量。简而言之,给定图像 X,Ψ(X) 将是一个 h×w×d 张量,可以将其视为一组 m个 (m=hw) d 维局部描述符为:

其中 xi 是第 i 个深度局部描述符。在我们的实验中,给定分辨率为 84 × 84 的图像,我们可以得到 h = w = 21 和 d = 64。这意味着每个图像总共有 441 个深度局部描述符。

图像到类模块

模块 Φ 使用来自一个类中所有训练图像的深度局部描述符来为这个类构建一个局部描述符空间。在这个空间中,我们通过 k-NN 计算查询图像和此类之间的图像到类的相似度(或距离)

具体来说,通过模块 Ψ,给定的查询图像 q 将被嵌入为 Ψ(q) = [x1, . . . , xm] ∈ R^d×m。对于每个描述符 xi,我们在类 c 中找到它的 k 最近邻 𝑥𝑖𝑗​𝑗=1𝑘。然后我们计算 xi 和每个 𝒙𝒊 之间的相似度,并将 mk 相似度相加作为 q 和类 c 之间的图像到类的相似度。在数学上,图像到类的度量可以很容易地表示为:

其中 cos(·) 表示余弦相似度。当然可以使用其他相似度或距离函数。

实验

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值