细粒度图像识别算法Mask-CNN 论文笔记

最新推荐文章于 2025-03-22 14:45:45 发布

Cyiano

最新推荐文章于 2025-03-22 14:45:45 发布

阅读量1.6w

点赞数 3

分类专栏：深度学习文章标签：深度学习与计算机视觉图像识别

本文链接：https://blog.csdn.net/cyiano/article/details/71440358

版权

本文深入探讨了Mask-CNN在细粒度图像识别中的应用，通过四线模型结合深度卷积描述符实现端到端训练，提高了识别准确率。M-CNN在CUB200-2011数据集上取得85.5%的准确率，同时在part定位和object分割方面表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文：Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition
下载地址：https://arxiv.org/abs/1605.06878

传统的图像识别一般都是识别花、鸟、汽车等不同类别物体，而细粒度图像识别则是要识别同一类物体下的不同子类。举个例子，识别一张图片是猫、狗、汽车还是飞机就是传统的图像识别，而识别一张图片是贵宾犬、边境牧羊犬、吉娃娃还是斗牛犬，则是细粒度图像识别。不同的犬类相似性一般都很高，比如下面的哈士奇和阿拉斯加雪橇犬，如果事先不知道它们有差别的部位，很难正确识别。现在图像识别大都使用卷积神经网络CNN，卷积层会针对整个图像（不论是背景还是物体）提取特征，而细粒度图像识别重点在于物体的一些关键部分，如此一来CNN提取的有很多特征向量都是没用的。
前人已经提出了很多先检测物体部位后识别的方法。本文提出了Mask-CNN模型（M-CNN），它在训练时仅需要part annotations和image-level标签这两个信息。其中part annotations分成两个集合：头部和躯干，如此part localization就成了一个三类分割问题。完整的网络可见下图，M-CNN是一个四线模型（four-stream），四个输入分别为完整图像、检测到的头部、检测到的躯干和检测到的完整物体，每条线程通过卷积最后都得到了deep descriptors（应该是常说的特征图），进而得到1024-d向量，将四个向量拼接在一起，通过 l