有没有处理数据不平衡的方法?| 社区问答

转载 2017年12月19日 00:00:00

?wxfrom=5&wx_lazy=1

这里是 AI 研习社,我们的社区已经正式推出了!欢迎大家来多多交流~

mooc.ai/bbs

(戳文末阅读原文直接进)

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。 

一个小介绍:

社区目前主要功能是问答博客,支持文字、图片、视频、代码、公式、超链接,这些功能可以让你在描述问题 / 回答问题 / 写文章的时候用最清晰的方式来表达,还需要什么你说,我改


  话不多说,直接上题  


问:有没有处理数据不平衡的方法?

请问,有没有处理数据不平衡的方法呢?好的方法,其次有什么好的数据增强的方法呢


来自社友的回答

▼▼▼  

@MicoonZhang      

比较简单常用的比如:

数据少的时候常使用上采样(oversampling),复制观测值少的类的样本
数据多的时候常使用下采样(undersampling),去除观测值多的类的样本

再就是可以通过算法生成不平衡样本:

经典的如 SMOTE(字面翻译 - 综合少数样本的过抽样技术,大概理解),使用两个或者多个样本的距离作为度量标准判断相似度,然后把其中一个样本加上随机噪声(或者叫扰动,此值实在相邻的样本的差异之间)来生成新样本。

其他方法比如加权、用带惩罚的模型(比如 penalized-SVM 或者 penalized-LDA 等)。

或许你可以换个思路,把样本很不平衡问题换做异常点检测?或者用一分类(One-Class-SVM)?或许是考虑用 RandomForest 等对训练集随机采样的模型?

这种问题和业务需求也有很强的相关性,可能根据领域知识也能解决一些问题。

@mojuan        

通常可以考虑 oversampling 或者 undersampling,修改 cost function 等方法,具体可以参考 Haibo He 老师关于不平衡数据处理的一篇高引综述。

@JianJuly  

可以参考《Generalised Dice Overlap as a Deep Learning Loss Function for Highly Unbalanced Segmentations》及其引文。写的特别详细。

?

bicdMLzImlibSysm7dE4CiaMAJYvKAWs2oCMdQu4D99SA8eAbf967UfBKb3IyJXuEm99Nq7hRiaE7aPD7jhwnJp8icg



新人福利




关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据,教程,论文】


如果你有更好的答案,点击阅读原文分享你的观点~

▼▼▼  

不平衡数据分类算法介绍与比较

在数据挖掘中,经常会存在不平衡数据的分类问题,比如在异常监控预测中,由于异常就大多数情况下都不会出现,因此想要达到良好的识别效果普通的分类算法还远远不够,这里介绍几种处理不平衡数据的常用方法及对比。...
  • a358463121
  • a358463121
  • 2016年08月28日 21:41
  • 11640

处理不平衡数据的八大策略

在处理分类问题过程中,数据的不平衡分布,往往对分类结果产生比较大的影响。以下是针对二项分类的数据不平衡问题进行分析。 1) 可以扩大数据样本?       扩大数据样本是一个容易被忽视的选择。在集合中...
  • u014458853
  • u014458853
  • 2015年10月21日 17:29
  • 2469

如何处理分类中的训练数据集不均衡问题

本文参考自:http://blog.csdn.net/heyongluoyao8/article/details/49408131,有删改。什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样...
  • login_sonata
  • login_sonata
  • 2017年01月09日 16:45
  • 3598

怎么判断 tf 有没有使用 cudnn 加速? | 社区问答

这里是 AI 研习社,我们的社区已经正式推出了!欢迎大家来多多交流~mooc.ai/bbs(戳文末阅读原文直接进)社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。 一...
  • Y0W1as5eg37urFdS
  • Y0W1as5eg37urFdS
  • 2018年01月09日 00:00
  • 46

想用深度学习的方法检测一个零部件的不合格部位,如何下手? | 社区问答

这里是 AI 研习社,我们的社区已经正式推出了!欢迎大家来多多交流~mooc.ai/bbs(戳文末阅读原文直接进)社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。 一...
  • Y0W1as5eg37urFdS
  • Y0W1as5eg37urFdS
  • 2017年12月22日 00:00
  • 90

数据样本不平衡问题处理方法

很多分类学习方法针对都有一个共同的基本假设,即不同类别的训练数据数目相当,即使稍有差别,通常影响不大。但如果差别较大,就会对学习过程造成困扰。 在现实场景中,比如银行欺诈,异常登录,网络入侵等领域中...
  • youlikaste
  • youlikaste
  • 2017年12月05日 15:49
  • 44

处理不平衡数据的常用采样方法

介绍在数据挖掘中,经常会存在不平衡数据的分类问题,比如在异常监控预测中,由于异常就大多数情况下都不会出现,因此想要达到良好的识别效果普通的分类算法还远远不够,这里介绍几种处理不平衡数据的常用方法及对比...
  • peiwang245
  • peiwang245
  • 2018年01月06日 10:51
  • 8

不平衡数据的数据处理方法(F值)

在机器学习中,不平衡数据是常见场景。不平衡数据一般指正样本数量远远小于负样本数量。如果数据不平衡,那么分类器总是预测比例较大的类别,就能使得准确率达到很高的水平。比如正样本的比例为 1%,负样本的比例...
  • SZU_Hadooper
  • SZU_Hadooper
  • 2017年11月17日 16:40
  • 56

社区问答系统研究综述

  • 2011年01月07日 12:17
  • 261KB
  • 下载

使用深度双向LSTM模型构造社区问答系统

关于社区问答系统的问题背景,我们在之前的“利用卷积神经网络构造社区问答系统”一文里已经说明得很清楚,本文就不再赘述,不清楚背景的读者可自行参照上文,我们这些相关的研发工作主要是为了开发畅捷通“会计家园...
  • u012052268
  • u012052268
  • 2017年06月13日 11:27
  • 613
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:有没有处理数据不平衡的方法?| 社区问答
举报原因:
原因补充:

(最多只允许输入30个字)