《PDiscoNet: Semantically consistent part discovery for fine-grained recognition》ICCV2023

摘要

细粒度分类往往需要识别特定的对象部分,例如鸟类的喙形状和翅膀图案。传统的解释性方法通常提供单一的归因图,而本文提出的 PDiscoNet 旨在仅使用图像级别的类别标签,发现对象的部分,鼓励模型首先检测这些部分,然后使用它们推断类别。这有助于我们更好地评估模型是否真的关注了正确的细节。PDiscoNet 通过使用一些先验知识,鼓励部分具有区分性、紧凑性、相互独立、对刚性变换具有等变性,并且在至少一些图像中活跃。此外,论文还提出了一种部分丢弃的方法,以及部分特征向量调制,以防止单一部分在分类中占主导地位,并使来自每个部分的信息对分类器来说具有可区分性。

拟解决的问题

论文旨在解决细粒度识别中,模型如何基于图像级别的类别标签自动发现和利用对象的特定部分,以提高识别的准确性和可解释性。

创新之处

  • 部分发现:PDiscoNet 能够在没有部分注释的情况下,通过图像级别的类别标签发现对象的部分。
  • 部分丢弃:提出了一种新的正则化方法,即部分丢弃,以防止单一部分在分类中占主导。
  • 部分特征向量调制:通过调制增加了部分特征的区分性,使得分类器能够从每个部分获得独特的信息。

方法

细粒度分类任务中,区分相似子类别通常需要识别对象的特定部分。PDiscoNet 旨在通过图像级别的类别标签来发现这些部分,并利用它们进行分类。

简述工作流程:

特征提取

  • 输入图像通过一个预训练的卷积神经网络(CNN)提取特征,生成特征张量 Z。

部分原型初始化

  • 初始化 K+1 个部分原型 p_{k}​,这些原型是网络需要学习的参数,代表图像中潜在的对象部分特征。

注意力图计算

  • 使用特征张量 Z 和部分原型 p_{k}​ 计算注意力图 A_{k}​。这涉及到计算特征向量与部分原型之间的相似度,并通过 Softmax 函数归一化,得到每个部分的重要性图。

部分特征向量生成

  • 利用注意力图 A_{k}​ 对特征张量 Z 中的特征向量进行加权,计算每个部分的加权平均特征向量 v_{k}

调制向量应用

  • 对每个部分特征向量 v_{k}​ 应用调制向量 m_{k}​,以增强部分特征的区分性。

分类器处理

  • 使用线性分类器 W_{class}​ 对每个调制后的向量 m_{k}v_{k}​ 进行处理,生成类别得分。

损失函数定义

  • 定义多种损失函数来训练网络,包括分类损失、集中损失、正交损失、等变性损失和存在损失,以确保学习到的部分特征具有所需属性。

模型训练

  • 使用反向传播算法根据损失函数对网络参数进行更新,包括部分原型 p_{k}​、调制向量 m_{k} 以及 CNN 的权重。

特征提取:使用 CNN 作为基础模型来提取输入图像 X 的特征张量 Z。

注意力图计算:使用 K+1 个部分原型 p^{k} 与特征向量 z_{ij}​ 之间的负平方欧几里得距离,通过 1x1 卷积和 softmax 函数计算 K+1 个注意力图 A_{k}:

其中K 表示的是模型试图发现的对象的部分的数量(喙、翅膀、尾巴、身体等),这些部分对于区分不同的鸟类种类可能是关键的。每个部分都由一个对应的部分原型 p^{k} 表示,网络通过学习这些原型来识别图像中相应的部分。 

每个注意力图 A_{k}​ 的每个元素 a_{ij}^{k}​​ 表示特征张量中位置 (i,j) 处的像素属于第 k 个部分的“关注度”或“重要性”。

部分特征向量计算:计算部分向量 v^{k}\in R^{D},D为通道数​,v^{k}为对应注意力图加权的特征向量 z_{ij}​ 的平均值:

调制向量m_{k}​ 用于增强部分特征的区分性,通过逐元素乘法与部分向量 v^{k}​ 结合 

部分丢弃:为了防止最具区分性的部分使其他部分变得不必要,PDiscoNet 在训练过程中随机丢弃一部分特征,鼓励模型发现多样的区分性部分。

分类器:使用相同的线性分类器 W_{class} 对所有部分特征向量进行分类

损失函数

  • 分类损失 L_{class}:交叉熵损失,用于优化分类性能。

  • 集中损失 L_{conc}​:鼓励紧凑和连续的图像区域: 

\sigma _{v},\sigma _{h}分别代表垂直和水平的空间方差。

  • 正交损失 L_{orth}​:通过余弦距离鼓励部分向量的不相关性: 

  • 等变性损失 L_{equiv}:通过鼓励注意力图对图像的刚性变换等变: 

  • 存在损失 L_{pres}:鼓励每个部分在一批图像中至少出现一次:

结论

PDiscoNet 能够在不同的数据集上发现语义一致的部分,并且与现有的部分发现方法相比,在部分定位和语义一致性方面取得了更好的结果,同时没有牺牲下游分类任务的准确性。论文还指出,尽管取得了进展,但在提高模型的可解释性方面仍有改进空间,例如通过限制背景信息对部分特征表示的影响。作者希望 PDiscoNet 的方法能够为细粒度视觉分类的模型提供更多的可解释性,并通过丰富模型与其最终用户的交互,促进对该领域更深入的理解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值