长尾分布原理

最新推荐文章于 2024-01-11 20:03:47 发布

沙小菜

最新推荐文章于 2024-01-11 20:03:47 发布

阅读量1.3k

点赞数 1

文章标签：机器学习深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_38262850/article/details/122305233

版权

一个均衡的数据集固然大大简化了对算法鲁棒性的要求，也一定程度上保障了所得模型的可靠性，但随着关注类别的逐渐增加，维持各个类别之间均衡就将带来指数增长的采集成本。

长尾分布数据：就是少数类别有大部分数据，而多数类别只有小部分数据。

直接利用长尾数据来训练的分类和识别系统，往往会对头部数据过拟合，从而在预测时忽略尾部的类别。如何有效的利用不均衡的长尾数据，来训练出均衡的分类器就是我们所关心的问题，从工业需求上来说，该研究也将大大地提升数据采集的速度并显著降低采集成本。

preview

常用的解决方法：

class re-balancing 策略，比如 re-weighting 或 re-sampling。
正面作用：能够调整网络的训练，通过在小批量内对样本重新取样或对样本损失重新加权，期望更接近于测试的分布，因此，类别的 re-balancing 可以直接影响深层网络分类器权重的更新，从而促进分类器的学习。

负面作用：

一定程度的损坏网络所学习的深层特征的能力，也就是当数据极度不平衡时，re-sampling 有对尾部数据过拟合的风险（通过过采样）也有对全部数据欠拟合的风险（通过欠采样）。
re-weighting，直接改变或翻转数据出现的频率，会使原数据失真。
这些常用方法的特点：

能够显著的促进网络的分类器学习能力
在一定程度上损害所学习深层特征的表达能力

目前最好的方法：解耦训练，但这种方法需要额外的微调。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
长尾分布原理

一个均衡的数据集固然大大简化了对算法鲁棒性的要求，也一定程度上保障了所得模型的可靠性，但随着关注类别的逐渐增加，维持各个类别之间均衡就将带来指数增长的采集成本。长尾分布数据：就是少数类别有大部分数据，而多数类别只有小部分数据。直接利用长尾数据来训练的分类和识别系统，往往会对头部数据过拟合，从而在预测时忽略尾部的类别。如何有效的利用不均衡的长尾数据，来训练出均衡的分类器就是我们所关心的问题，从工业需求上来说，该研究也将大大地提升数据采集的速度并显著降低采集成本。常用的解决方法：..
复制链接

扫一扫

沙小菜 CSDN认证博客专家 CSDN认证企业博客

码龄7年

46: 原创

39万+: 周排名

11万+: 总排名

11万+: 访问

: 等级

996: 积分

25: 粉丝

69: 获赞

64: 评论

432: 收藏

私信

关注

分类专栏

最新评论

图像相似度对比方法
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
yolo系列的Neck模块
先温两壶: 可算找到一个总结全的了博客了，很有指导意义
图像相似度对比方法
向着五星的方向: 互关一下
l1、l2正则化在pytorch框架下的实现方式
forget091299: 对损失函数添加正则化怎么用啊
模型剪枝概述
家有三头猪: 同样问题，解决了吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。