样本不均衡问题与损失函数

1、样本不均衡问题

主要分为以下几类:
1)每个类别的样本数量不均衡
2)划分样本所属类别的难易程度不同

2、Focal loss

focal loss用来解决难易样本数量不均衡,重点让模型更多关注难分样本,少关注易分样本。
假设正样本(label=1)少,负样本多,定义focal loss如下

Loss = -[alpha*(1-y_hat)^2yln(y_hat)
+ (1-alpha)y_hat^2(1-y)*ln(1-y_hat)]
其中y_hat:(batch, seq, tags),预测出的
y: (batch, seq, tags)
alpha:(1, 1, tags)
alpha是超参数,是正样本损失占总体的比例,初始化为 少数样本/总样本 的比值,调整策略如下,正样本的precision<recall时,训练更关注正样本,alpha调低,反之调高。
调整策略也可以为:
正类的识别正确率与负类的识别正确率

3、GHM loss

GHM用来解决难分样本中的离群点。模型不应过多关注易分样本,也不应过多关注离群很远的难分样本(特别难分的)。

4、加权loss

用来解决样本类别数量不均衡问题,某些类别的样本特别多或特别少。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值