思考: 现有 不平衡样本处理方法 的 缺陷

现有的不平衡样本处理

现实中采集到的训练样本往往分布不均。如果不加处理而直接训练,往往会使得模型更侧重训练到样本数目较多的类别,而轻视了样本数目较少类别,最终影响到模型的泛化能力。

这种问题被称为 “不平衡样本问题”。对应的处理方法包括 数据层面处理方法(数据重采样、类别平衡采样)以及 算法层面处理方法(代价敏感方法)等。

问题所在

现有的不平衡样本处理,都是 训练 之前基于 先验信息 所进行的处理。

而在实际训练过程中,模型会暴露出 新的学习短板(即后验信息)。那么之前按照 先验信息 处理后的 “平衡样本” ,在 后验信息 的衡量下 就会显得 不平衡

是继续填鸭式教学,还是侧重对知识盲点的训练?That’s a question 。

解决方案

设计算法,每隔一段训练轮数,检查哪些类的预测准确率低,然后在后期加大这些类的采样比例,再进行训练。

相当于一个 良师型的 样本采样算法 。

可能的风险

但同时我在想,训练过程中的误差反向传播,不也是一次对所暴露知识盲点的侧重学习么?那么照此看来,如果用了我新提出的这套方法,岂不是变相把学习率增大?那不是就意味着更快地进入过拟合状态了?!

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值