长尾分布解决方法

在20世纪30年代,美国哈佛大学语言学家齐普夫发现,将一文本中的词按照它们在文本中的出现(或使用)次数由高至低排列,以r表示序号(又称等级),g(r)表示序号为r的词在文本中的出现次数,则r的某一幂次r(β)和g(r)的乘积渐近为一常数,即g(r)*r(β)≈c。人们将关系式g(r)=cr(-β)(β>0,c>0)称为齐普夫定律,因而,长尾分布就是齐普夫定律。
说人话就是数据不均衡,举个栗子。若你现在要做一个十分类。但是每一类下面的图像数量不一,比如第一个类别样本为100,第二个类别样本只有10。这就是样本不均衡。
一般的解决思路有三种:重加权、重采样、迁移学习。
重加权参考CVPR2019 paper
Class-Balanced Loss Based on Effective Number of Samples
这是代码链接https://github.com/richardaecn/class-balanced-loss
论文链接https://arxiv.org/abs/1901.05555
重采样参考Decoupling Representation and Classifier for Long-Tailed Recognition, ICLR 2020
代码链接https://github.com/facebookresearch/classifier-balancing
论文链接https://arxiv.org/abs/1910.09217
迁移学习参考Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective,CVPR 2020
代码暂未开源
论文链接https://arxiv.org/abs/2002.10826

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VisionX Lab

你的鼓励将是我更新的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值