今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文、代码、框架、库等资源
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning
本文首发于我的知乎专栏:https://zhuanlan.zhihu.com/p/142692473,阅读会更加方便,可以直接点击链接,可以点击文章底部”阅读原文“直接跳转。
前言
类别不平衡(Class-imbalance),也被称为长尾问题(long-tail problem),指的是分类问题中数据集的类别数量并不一致,有的类别特别多,但有的类别特别少,并且这是实际应用里非常常见的问题。例如,欺诈检测,罕见药物不良反应的预测,以及基因家族预测。因为类别不平衡的原因就会导致预测不准确,降低了分类模型的性能。因此,不平衡学习(Imbalanced learning)的目标就是要解决类别不平衡问题,并从不平衡的数据中学习一个无偏模型。
目录如下所示:
代码库/框架
Python
R
Java
Scalar
Julia
论文
综述
深度学习
数据重采样(Data resampling)
成本敏感学习(Cost-sensitive Learning)
集成学习(Ensemble Learning)
异常检测
其他
不平衡数据库
其他的资源
另外,带有🉑 标记的是作者特别推荐的重要或者高质量的论文和框架。
(ps. 文章太长,所以分成上下两篇,更方便阅读)
代码库/框架
Python
imbalanced-learn
官网:https://imbalanced-learn.org/stable/
Github:https://github.com/scikit-learn-contrib/imbalanced-learn
官方文档:https://imbalanced-learn.readthedocs.io/en/stable/
论文地址:http://10.187.70.34/www.jmlr.org/papers/volume18/16-365/16-365.pdf
这个库是一个 python 编写的提供了一些常用于数据集的重采样技术,它适配 sciki