论文笔记: (compact) Bilinear Pooling, Confusion

本文深入探讨了细粒度图像分类中的Bilinear CNN模型,重点讲解了Bilinear Pooling的概念,包括全Bilinear Pooling、Compact Bilinear Pooling及其优化方法。通过引入Confusion和Kernel Pooling等技术,提高模型的泛化能力和准确性。
摘要由CSDN通过智能技术生成

Learn by attention, learn with confusion.

先引用几段魏秀参大神的论述「见微知著」——细粒度图像分析进展综述

细粒度物体的差异仅体现在细微之处。如何有效地对前景对象进行检测,并从中发现重要的局部区域信息,成为了细粒度图像分类算法要解决的关键问题。对细粒度分类模型,可以按照其使用的监督信息的多少,分为“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”两大类。
……略过一万字,建议自己去看……
一种对Bilinear CNN模型的解释是,网络A的作用是对物体/部件进行定位,即完成前面介绍算法的物体与局部区域检测工作,而网络B则是用来对网络A检测到的物体位置进行特征提取。两个网络相互协调作用,完成了细粒度图像分类过程中两个最重要的任务:物体、局部区域的检测与特征提取。另外,值得一提的是,bilinear模型由于其优异的泛化性能,不仅在细粒度图像分类上取得了优异效果,还被用于其他图像分类任务,如行人重检测(person Re-ID)。

不多解释,直接开始正文了,建议先读上面这篇综述吧。

Bilinear CNN[1][3]
先放网络架构图镇楼:

这里写图片描述

网络架构很简单,主要就是用外积(matrix outer product)来组合两个CNN(A和B)的feature map (当然也可以不用CNN),bilinear layer如下:

bilinear layer

其中位置l 涵盖了位置和尺度,I 是图像。f 的维度是(K,D)。D是指channel。如果A和B输出的特征维度分别是(K,M)和(K,N),经过bilinear后维度变为(M,N)。用求和池化函数(sum pooling)来综合不同位置的特征,得到一个全局的图片表示:

### 回答1: 紧凑双线性池化是一种用于计算机视觉中图像特征提取的技术。它可以将两个特征向量进行双线性池化,从而得到一个紧凑的特征向量,这个向量可以用于图像分类、目标检测等任务。相比于传统的双线性池化方法,紧凑双线性池化可以大大减少特征向量的维度,从而提高计算效率。 ### 回答2: Compact Bilinear Pooling(紧凑双线性池化)是一种用于图像分类和视觉问答等计算机视觉任务的高效特征融合技术。它可以将两个特征向量通过双线性映射方式快速融合为一个固定长度的特征向量,从而充分保留了两个特征向量中的所有信息。 Compact Bilinear Pooling是由微软研究院的维克托·拉津斯基等人提出的。在实际应用中,它可以提高模型的分类性能,同时减少了模型的计算和存储开销。 Compact Bilinear Pooling主要包括两个步骤:特征映射和特征池化。在特征映射阶段,对于两个输入特征向量,分别采用随机映射的方式将它们映射为高维空间中的特征图。在此基础上,采用双线性池化的方式将这两个特征图相乘并压缩成一个固定长度的向量,即为紧凑双线性池化后的特征向量。具体而言,双线性池化可以通过在空间和通道维度上应用矩阵乘法的方式来实现。 相对于其他特征融合方法,Compact Bilinear Pooling具有以下优点:1)保留输入特征向量的全部信息;2)能够快速生成紧凑的特征向量,减少了计算和存储开销;3)还可以通过改变随机映射的方式来进一步提高模型性能。但是,Compact Bilinear Pooling也存在一些局限性,比如需要大量的计算资源和训练数据支持。 ### 回答3: Compact bilinear pooling 是一种计算视觉特征的技术,它的主要目的是将原始的图像特征矩阵转换成一种紧凑的、固定维度的表示形式,从而能够更好地提高特征的表达能力。 这种技术的核心思想是将两个视觉特征图像进行双线性插值计算,从而得到一个紧凑的、固定维度的特征表示。具体来说,只需要对两个特征进行外积运算,然后将结果压缩成一个特征向量即可。在计算中,为了避免高维向量的计算和存储困难,通常会使用低秩矩阵分解的方法。 compact bilinear pooling 技术有很多的优点。首先,它比传统的卷积神经网络更具有表达能力。通过使用这种技术,可以更好地保留原始图像特征之间的交互作用,从而能够更好地捕捉图像中的细节信息。其次,它具有更小的存储空间需求。通过将特征压缩成固定长度的向量,可以大大减少存储空间和计算成本。 使用 compact bilinear pooling 技术可以对图像进行更好的特征提取和分类,因此在图像识别、人脸识别等领域具有广泛的应用前景。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值