（CVPR 2018）Large Scale Fine-Grained Categorization and Domain-Specific Transfer Learning，细粒度图像识别

最新推荐文章于 2025-01-30 20:05:56 发布

空苍地樱

最新推荐文章于 2025-01-30 20:05:56 发布

阅读量922

点赞数

分类专栏：深度学习 Fine-Grained 论文阅读文章标签： Fine-Grained 论文阅读

本文链接：https://blog.csdn.net/KongCDY/article/details/100373128

版权

论文阅读同时被 3 个专栏收录

9 篇文章

订阅专栏

深度学习

4 篇文章

订阅专栏

Fine-Grained

4 篇文章

订阅专栏

简介

本文主要讨论了几个点：

图像分辨率对识别的影响
长尾数据应对方法，主要针对iNaturalist数据。所谓长尾数据是指类别数据量不平衡，有些类别数据量很大，很多类别数据量很少，呈长尾状。

细粒度图像识别，例如鸟类、车类的子类别。本文并没有提出新的网络结构，主要是通过迁移学习达到此目的。针对source数据的选取、预训练及fine-tune。

图像分辨率讨论

分辨率越高包含的信息量也越多，尤其是针对细粒度识别。作者做实验证明分辨率越大越好（这是肯定的啦）。

长尾数据

数据量不平衡是造成长尾数据的主要原因，iNatrualist数据数据量最多的大类有19w张，数据量最少的大类只有3百多张，数据量最多的类别与最少的类别的数据量比值是435，若不重采样或加权重，网络很容易会被数据量大的类别所引导，数据量少的类别就会很差。iNatrualist论文给出了各个数据集数据不平衡的情况：

针对长尾数据，作者的做法是：

先正常在不平衡的数据集上训练，模型可以学到比较好的特征表达。
在上面数据集的一个平衡的子集上，使用小学习率fine-tune。目的是缓慢地让学到的特征均衡化，迁移到所有类别。

作者做的实验如下，下图蓝色是第一阶段学习的error，红色是第二阶段学习后的error。

个人感觉应该跟重采样的效果差不多吧，反正数据量少的样本就那么多，重采样相当于让数量少的样本出现次数变多了，达到了上面第二阶段的均衡子集的作用，而且还不会减少数据量多的类别的数据，好的特征应该也足够学到。

迁移学习与细粒度识别

作者使用迁移学习使用数据量大的数据集预训练网络，再在数据量少的细粒度数据上fine-tune。主要分两步：

第一步：

假设数据集S是用于预训练的，数据量很多。数据集T是目标域，数据量很少。作者发现在iNatrualist数据集预训练后在CUB-200上fine-tune的效果比在ImageNet上预训练的效果好。猜测因为iNatrualist里样子跟CUB-200相似的鸟比较多。因此作者假设，在与T集相似的类别上预训练然后在T上fine-tune的效果要更好。

因此第一步就要在S集中找到与T集相似的那些类别，进行模型的预训练。先定一个距离函数：