长尾分布解决方法

最新推荐文章于 2024-06-24 11:57:56 发布

VisionX Lab

最新推荐文章于 2024-06-24 11:57:56 发布

阅读量1.1k

点赞数 3

文章标签：深度学习机器学习 pytorch

本文链接：https://blog.csdn.net/hasque2019/article/details/124447922

版权

在20世纪30年代，美国哈佛大学语言学家齐普夫发现，将一文本中的词按照它们在文本中的出现（或使用）次数由高至低排列，以r表示序号（又称等级），g（r）表示序号为r的词在文本中的出现次数，则r的某一幂次r(β)和g（r）的乘积渐近为一常数，即g（r）*r(β)≈c。人们将关系式g（r）=cr(-β)(β>0,c>0)称为齐普夫定律，因而，长尾分布就是齐普夫定律。
说人话就是数据不均衡，举个栗子。若你现在要做一个十分类。但是每一类下面的图像数量不一，比如第一个类别样本为100，第二个类别样本只有10。这就是样本不均衡。
一般的解决思路有三种：重加权、重采样、迁移学习。
重加权参考CVPR2019 paper
Class-Balanced Loss Based on Effective Number of Samples
这是代码链接https://github.com/richardaecn/class-balanced-loss
论文链接https://arxiv.org/abs/1901.05555
重采样参考Decoupling Representation and Classifier for Long-Tailed Recognition, ICLR 2020
代码链接https://github.com/facebookresearch/classifier-balancing
论文链接https://arxiv.org/abs/1910.09217
迁移学习参考Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective，CVPR 2020
代码暂未开源
论文链接https://arxiv.org/abs/2002.10826

VisionX Lab

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
2
评论
长尾分布解决方法

在20世纪30年代，美国哈佛大学语言学家齐普夫发现，将一文本中的词按照它们在文本中的出现（或使用）次数由高至低排列，以r表示序号（又称等级），g（r）表示序号为r的词在文本中的出现次数，则r的某一幂次r(β)和g（r）的乘积渐近为一常数，即g（r）*r(β)≈c。人们将关系式g（r）=cr(-β)(β>0,c>0)称为齐普夫定律，因而，长尾分布就是齐普夫定律。说人话就是数据不均衡，举个栗子。若你现在要做一个十分类。但是每一类下面的图像数量不一，比如第一个类别样本为100，第二个类别样本只有10
复制链接

扫一扫