深度学习数据长尾问题

最新推荐文章于 2025-04-04 07:42:21 发布

RyanC3

最新推荐文章于 2025-04-04 07:42:21 发布

阅读量4.1k

点赞数 6

分类专栏： # 深度学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/u012655441/article/details/124684999

版权

深度学习专栏收录该内容

21 篇文章

订阅专栏

文章目录

前言
基本方法
参考

前言

最近忙着工作，上班下班放假时间都被工作沾满了，都没什么时间写博客。今天看了一篇文章万字综述：如何打造自动驾驶的数据闭环？，刚好在跟最近在做的目标检测有关系，在目标检测中常常困扰我一个问题，假设当前我有一万个样本的训练集，训练集中每个样本数量都很均衡，假设有5类，每一类就有2000张样本。现在领导让我添加一类识别，可是只有几百张，如果将新类别的几百张样本加入一万张训练集里面，会不会对原有的类别有影响，或者是会影响新类别的识别。这个问题就是长尾问题。

在传统的的分类和识别任务中，训练数据的分布往往都收到了人工的均衡，即不同类别的样本数量无明显差异。一个均衡的训练样本有很多好处，不仅可以简化了对算法鲁棒性的要求，也一定程度上保障了所得模型的可靠性。但是随着样本中的类别增强，维持各个类别之间均衡就将带来指数增长的采集成本。那如果不刻意地对样本进行人工均衡干预，那么这些数据类别的分布往往如下图所示。如果直接利用长尾数据来训练的分类和识别系统，往往会对头部数据过拟合，从而在预测时忽略尾部的类别。如何有效的利用不均衡的长尾数据，来训练出均衡的分类器就是我们所关心的问题，从工业需求上来说，该研究也将大大地提升数据采集的速度并显著降低采集成本。
在这里插入图片描述

基本方法

重采样

重采样主要是对头部类别的欠采样和尾部类别的过采样。本质都是对不同类别的图像采样频率根据样本数量进行反向加权。其中最常用的策略是类别均衡采样。类别均衡的概念主要是区别传统学习过程中的样本均衡，也就是每个图像都有相同的概率被选中，不论其类别。而类别均衡的核心是根据不同类别的样本数量，对每个图像的采样频率进行加权。

重采样就是已有数据不均衡的情况下，人为地让模型学习时接触到的训练样本时类别均衡的，从而在一定程度上减少对头部数据的拟合。不过由于尾部的少量数据往往被反复学习，缺少足够多的样本差异，不够鲁棒，而头部拥有足够差异的大量数据又往往得不到充分学习，所以重采样也并非是真正完美的解决方案。

关于重采样的方法可以参考：