bilinear 神经网络_双线性汇合(bilinear pooling)在细粒度图像分析及其他领域的进展综述...

本文综述了双线性汇合在细粒度图像分类中的应用,探讨了如何通过双线性池化捕获特征通道的相关性,以及如何通过精简技术降低计算复杂度。研究分为改进汇合过程和精简汇合两方面,涉及矩阵规范化、低秩近似等方法。此外,还讨论了双线性汇合在风格迁移、视觉问答和动作识别等领域的应用。
摘要由CSDN通过智能技术生成

细粒度图像分类旨在同一大类图像的确切子类。由于不同子类之间的视觉差异很小,而且容易受姿势、视角、图像中目标位置等影响,这是一个很有挑战性的任务。因此,类间差异通常比类内差异更小。双线性汇合(bilinear pooling)计算不同空间位置的外积,并对不同空间位置计算平均汇合以得到双线性特征。外积捕获了特征通道之间成对的相关关系,并且这是平移不变的。双线性汇合提供了比线性模型更强的特征表示,并可以端到端地进行优化,取得了和使用部位(parts)信息相当或甚至更高的性能。

在本文,我们将对使用双线性汇合进行细粒度分类的方法发展历程予以回顾。研究方向大致分为两类:设计更好的双线性汇合过程,以及精简双线性汇合。其中,对双线性汇合过程的设计主要包括对汇合结果规范化过程的选择及其高效实现,以及融合一阶和二阶信息。精简双线性汇合设计大致有三种思路:利用PCA降维、近似核计算、以及低秩双线性分类器。此外,双线性汇合的思想也被用于其他计算机视觉领域,例如风格迁移、视觉问答、动作识别等。我们也将介绍双线性汇合在这些领域的应用。

1. 数学准备

在本节,我们介绍本文用要用到的符号和在推导时需要的数学性质。

1.1 符号

深度描述向量(deep descriptor)

。其中

。例如对VGG-16网络,我们通常使用relu5-3层的特征提取图像的深度描述向量,那么

描述矩阵(descriptor matrix)

。定义为

均值向量(mean vector)

。定义为

格拉姆矩阵(Gram matrix)

。定义为

协方差矩阵(covariance matrix)

。定义为

其中

是中心化矩阵(centering matrix)。

分数向量(score vector)

,softma层的输入,

是分类任务的类别数。

1.2 数学性质

由于双线性汇合相关的论文涉及许多矩阵运算,尤其是迹运算。如下性质在推导时将有帮助。这些性质在使用时即可以从左向右使用,也可以从右向左使用。

向量化操作的迹等价

弗罗贝尼乌斯范数(Frobenius norm)的迹等价

矩阵迹满足交换率和结合率

矩阵转置不改变迹

矩阵幂等价于特征值分别取幂

1.3 双线性

对函数

,双线性(bilinear)是指当固定其中一个参数(例如

)时,

对另一个参数(例如

)是线性的。在这里,研究的双线性函数是形如

这样的形式。本文关注的双线性汇合叫双线性这个名字是受历史的影响,在早期两个分支是不同的,现在主流做法是两个分支使用相同的输入,整个操作将变为非线性而不是双线性,但这个名称沿用至今。

2. 双线性汇合

双线性汇合在深度学习复兴前就已经被提出,随后,在细粒度图像分类领域得到了广泛使用。本节将介绍双线性汇合及其变体。

2.1 细粒度分类中的双线性汇合Tsung-Yu Lin, Aruni RoyChowdhury, and Subhransu Maji. Bilinear CNN models for fine-grained visual recognition. ICCV 2015: 1449-1457.

Tsung-Yu Lin, Aruni RoyChowdhury, and Subhransu Maji. Bilinear convolutional neural networks for fine-grained visual recognition. TPAMI 2018, 40(6): 1309-1322.

双线性汇合操作通过计算深度描述向量的格拉姆矩阵

捕获特征通道之间成对的相关关系。随后,将格拉姆矩阵展成向量

并进行规范化(normalization)

得到最终的双线性特征。

在原文中,Lin等人使用了两个不同的网络得到双线性汇合的不同分支,动机是希望一个分支学到位置(where)信息,而另一个分支学到外观(what)信息。事实上,这是不可能的。

Mohammad Moghimi, Serge J. Belongie, Mohammad J. Saberian, Jian Yang, Nuno Vasconcelos, and Li-Jia Li. Boosted convolutional neural networks. BMVC 2016.

Moghimi等人提出Boost

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值