机器学习---样本不均衡和过拟合

本文探讨了数据不平衡问题及其在分类任务中的挑战,介绍了欠采样和过采样的策略,以及Focalloss作为解决正负样本不平衡的手段。Focalloss通过降低易分辨样本的权重,聚焦于难分辨样本,从而改善模型训练。同时,文章提到了防止过拟合的多种方法,并讨论了评价指标的选择,如ROC、AUC等。
摘要由CSDN通过智能技术生成

下面的题都是来自于牛客网的面试宝典

1.数据不平衡怎么样

数据不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样更重要),需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数。

工程过程中,应对样本不均衡问题常从以下三方面入手:

  • 欠采样:在少量样本数量不影响模型训练的情况下,可以通过对多数样本 欠采样,实现少数样本和多数样本的均衡。
  • 过采样:在少量样本数量不支撑模型训练的情况下,可以通过对少量样本 过采样,实现少数样本和多数样本的均衡。
  • 引用相应的损失函数

2.Focal loss介绍一下

Focal loss主要为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单样本在训练中所占的权重,也可理解为一种困难样本挖掘。

易分辨样本、难分辨样本的含义
在本损失函数中数次出现难分辨和易分辨的词语,那么何为易分辨、何为难分辨?
通常将分类置信度接近1或接近0的样本称为易分辨样本,其余的称之为难分辨样本。换句话说,也就是我们有把握确认属性的样本称为易分辨样本,没有把握确认属性的样本称之为难分辨样本。
比如在一张图片中,我们获得是人的置信度为0.9,那么我们很有把握它是人,所以此时认定该样本为易分辨样本。同样,获得是人的置信度为0.6,那么我们没有把握它是人,所以称该样本为难分辨样本。
1.首先,在分类损失中最经典的损失函数为标准交叉熵,以二分类为例可以写为:
在这里插入图片描述
在这里插入图片描述
但是这种损失函数在处理类不均衡问题时非常糟糕,会因为某类的冗余,而主导损失函数,使模型失去效果。
2. 为了解决类不平衡的问题,常见的做法是添加权重因子。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 如何防止过拟合

1.早停法;2.l1和l2正则化;3.神经网络的dropout;4.扩增数据集; 5.决策树剪枝;6.SVM的松弛变量;6.集成学习
解析:能够达到模型权重减小,模型简单的效果

4. 正负样本不平衡的解决方法?评价指标的参考价值?

解决方法:上下采样法—上采样是把小众类复制多份,下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本

好的指标:ROC、AUC、F值、G-Mean
不好的指标:precision、recall

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值