数据不平衡

  • 采样:按比例采集样本,来平衡样本

  • GAN生成模型: 生成虚拟数据 来平衡扩大样本

  • 迁移学习: 利用之前在别的数据集上训练好的模型参数 在自己的任务上fine-tuning

  • 选择合适的loss函数:对类别比例小的样本给更大的权重系数,对类别比例大的样本给更小的权重系数,通过这种方式可以在一定程度上解决正负样本不均衡的问题

  • 合适的模型

采样

Over-sampling methods

缺点:如果随机的复制多分正样本进行过采样,那么必然会导致过拟合,因为训练数据中的正样本会反复出现。这种做法不建议

smote是一种合成采样的方法,它主要基于少数样本,计算样本空间之间的相似度,然后创建人工合成样本

Under-sampling methods

因为欠采样会丢掉信息,所以可以通过EnsembleBoosting的思想来进行欠采样

多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果。

Hybrid methods

GAN生成模型

对抗训练
虚拟对抗训练
数据 增强 训练
对抗训练
对抗样本:对输入增加微小扰动得到的样本。旨在增加模型损失
对抗训练:训练模型去区分样例是真实样例还是对抗样本的过程。对抗训练不仅可以提升模型对对抗样本的防御能力,还能提升对原始样本的泛化能力。

 对于模型来说,希望的是预测加入扰动后的结果和真实的一致

数学实现:这里的q(y|xl) 为真实数据的预测,p(y|xl+radv,θ) 为加入扰动的预测,D是衡量的标准,这里可以是KL散度。 评估扰动结果和真实结果的一致性

对抗训练的本质上就是让模型具有较强的鲁棒性,可以抵抗对抗样本的干扰,采用的方式就是生成这些数据,并且把这些数据加入到训练数据中。这样模型就会正视这些数据, 并且尽可能地拟合这些数据,最终完成了模型拟合,这些盲区也就覆盖住了。将对抗样本和原有数据一起进行训练,对抗样本产生的损失作为原损失的一部分, 即在不修改原模型结构的情况下增加模型的loss,产生正则化的效果。

虚拟对抗训练

VAT则是在对抗训练的基础上,提出了LDS(local distributional smoothness)。VAT提出的LDS也可以理解为在原有模型的基础上加上正则项,这个正则项可以实现局部分布平滑,VAT可以不仅仅适用于纯监督环境, 也适用于半监督训练。

总结一下VAT论文的优势:

VAT在AT的基础上设计了LDS,可以实现局部平滑
VAT可以实现半监督下模型的对抗训练,并且取得了不错的实验效果
VAT本身计算上没有太多超参设置, rvadv rvadv的快速估计提升了计算速度

对于模型来说,希望的是样本加入扰动后预测结果和的样本加入扰动的预测结果一致

监督训练,无真实样本标签

无监督数据增强

内容:

扰动的样本x来源于非训练数据

缺点

监督数据通常都是少量的。

基于Loss

即对类别比例小的样本给更大的权重系数,对类别比例大的样本给更小的权重系数,通过这种方式可以在一定程度上解决正负样本不均衡的问题

代表:OHEMFocal Loss 另外还有GHM、PISA等方法

OHEM算法的核心是选择一些难样本(多样性和高损失的样本)作为训练样本,针对性的改善模型学习效果。对于数据类别不平衡问题,OHEM的针对性更强。

Focal Loss的核心思想是在交叉熵的基础上增加了类别的不同权重以及困难样本的权重,以改善模型学习效果。https://blog.csdn.net/qq_42363032/article/details/121573416

合适的模型

模型方面可以选择对不均衡比较不敏感的算法,例如树模型、以及集成树模型的方法
理论上 更为 优秀的是基于 采样 + 集成树模型 等方法,可以在类别不均衡数据上表现良好。

如何选择,看实际效果

 https://arxiv.org/pdf/2104.02240.pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值