论文笔记: (compact) Bilinear Pooling, Confusion

最新推荐文章于 2024-08-16 08:05:44 发布

Wayne2019

最新推荐文章于 2024-08-16 08:05:44 发布

阅读量1.8w

点赞数

分类专栏：深度学习与机器学习文章标签：计算机视觉 bilinear 细粒度图像分类深度学习 kernel

本文链接：https://blog.csdn.net/Wayne2019/article/details/78441001

版权

本文深入探讨了细粒度图像分类中的Bilinear CNN模型，重点讲解了Bilinear Pooling的概念，包括全Bilinear Pooling、Compact Bilinear Pooling及其优化方法。通过引入Confusion和Kernel Pooling等技术，提高模型的泛化能力和准确性。

摘要由CSDN通过智能技术生成

Learn by attention, learn with confusion.

先引用几段魏秀参大神的论述「见微知著」——细粒度图像分析进展综述

细粒度物体的差异仅体现在细微之处。如何有效地对前景对象进行检测，并从中发现重要的局部区域信息，成为了细粒度图像分类算法要解决的关键问题。对细粒度分类模型，可以按照其使用的监督信息的多少，分为“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”两大类。
……略过一万字，建议自己去看……
一种对Bilinear CNN模型的解释是，网络A的作用是对物体／部件进行定位，即完成前面介绍算法的物体与局部区域检测工作，而网络B则是用来对网络A检测到的物体位置进行特征提取。两个网络相互协调作用，完成了细粒度图像分类过程中两个最重要的任务:物体、局部区域的检测与特征提取。另外，值得一提的是，bilinear模型由于其优异的泛化性能，不仅在细粒度图像分类上取得了优异效果，还被用于其他图像分类任务，如行人重检测（person Re-ID）。

不多解释，直接开始正文了，建议先读上面这篇综述吧。

Bilinear CNN[1][3]
先放网络架构图镇楼：