Github|类别不平衡学习资源(下）

最新推荐文章于 2024-05-26 09:59:33 发布

spearhead_cai

最新推荐文章于 2024-05-26 09:59:33 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/lc013/article/details/106308981

版权

点击上方“算法猿的成长“，关注公众号，选择加“星标“或“置顶”

总第 139 篇文章，本文大约 3600 字，阅读大约需要 10 分钟

继续介绍类别不平衡学习资源，github 地址：

https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

上篇文章地址：

Github|类别不平衡学习资源(上）

另外，完整版阅读可以到我的知乎专栏：https://zhuanlan.zhihu.com/p/142692473

这次介绍的是下面目录加粗的内容：

代码库/框架
- Python
- R
- Java
- Scalar
- Julia
论文
- 综述
- 深度学习
- 数据重采样（Data resampling）
- 成本敏感学习（Cost-sensitive Learning）
- 集成学习（Ensemble Learning）
- 异常检测
其他
- 不平衡数据库
- 其他的资源

另外，带有???? 标记的是作者特别推荐的重要或者高质量的论文和框架。

数据重采样

过采样
- ROS [Code] - 随机过采样
- SMOTE [Code] (2002, 9800+ 引用) ，合成少数类的过采样技术（Synthetic Minority Over-sampling TEchnique）
  
  ???? 经典的工作
- Borderline-SMOTE [Code] (2005, 1400+ 引用) ，边界合成少数类的过采样技术；
- ADASYN [Code] (2008, 1100+ 引用) ，自适应合成采样（ADAptive SYNthetic Sampling）；
- SPIDER [Code (Java)] (2008, 150+ 引用) ，不平衡数据的选择性预处理；
- Safe-Level-SMOTE [Code (Java)] (2009, 370+ 引用) ，安全级综合少数类的过采样技术；
- SVM-SMOTE [Code] (2009, 120+ 引用) ，基于 SVM 的 SMOTE
- SMOTE-IPF (2015, 180+ 引用) ，迭代分区过滤的 SMOTE
欠采样
RUS [Code]，随机欠采样；
CNN [Code] (1968, 2100+ 引用) ，浓缩的最近邻（Condensed Nearest Neighbor）；
ENN [Code] (1972, 1500+ citations) ，可编辑的浓缩的最近邻（Edited Condensed Nearest Neighbor）；
TomekLink [Code] (1976, 870+ citations) ，Tomek 对浓缩的最近邻的修正方法；
NCR [Code] (2001, 500+ 引用) ，近邻的清洗规则；
NearMiss-1 & 2 & 3 [Code] (2003, 420+ 引用) ，几种解决不平衡数据分布的 KNN 方法
CNN with TomekLink [Code (Java)] (2004, 2000+ 引用) ，结合了浓缩的最近邻和 TomekLink 方法；
OSS [Code] (2007, 2100+ 引用)：单边选择（One Side Selection);
EUS (2009, 290+ 引用) ：进化的欠采样（Evolutionary Under-sampling）；
IHT [Code] (2014, 130+ 引用) ：实例难度阈值（Instance Hardness Threshold）；
混合采样
SMOTE-Tomek & SMOTE-ENN (2004, 2000+ 引用) [Code (SMOTE-Tomek)] [Code (SMOTE-ENN)] ，综合少数过采样技术和 Tomek 对压缩近邻/编辑近邻的修改；

????广泛的实验评估涉及10种不同的过/欠采样方法。
SMOTE-RSB (2012, 210+ 引用) ，混合了使用 SMOTE 预处理和粗糙集合理论；

成本敏感学习

CSC4.5 [Code (Java)] (2002, 420+ 引用) ，一个实际加权方法来引起成本敏感树；
CSSVM [Code (Java)] (2008, 710+ 引用) ，用于高度不平衡分类的成本敏感 SVMs；
CSNN[Code (Java)] (2005, 950+ 引用) ，基于解决类别不平衡问题的方法来训练一个成本敏感的神经网络；

集成学习

Boosting-based
- AdaBoost[Code] (1995, 18700+ 引用)
- DataBoost (2004, 570+ 引用)
- SMOTEBoost [Code] (2003, 1100+ 引用)
  
  ???? 经典的工作
- MSMOTEBoost(2011, 1300+ 引用)
- RAMOBoost [Code] (2010, 140+ 引用)
- RUSBoost[Code] (2009, 850+ 引用)

???? 经典的工作

AdaBoostNC (2012, 350+ 引用)
EUSBoost (2013, 210+ 引用)

bagging-based
- Bagging [Code] (1996, 23100+ 引用) ，Bagging 预测器；
- OverBagging & UnderOverBagging & SMOTEBagging & MSMOTEBagging [Code (SMOTEBagging)] (2009, 290+ 引用) ，基于 Bagging 的随机过采样/随机混合重采样/ SMOTE / 修改版 SMOTE；
- UnderBagging [Code] (2003, 170+ 引用) ，基于 Bagging 的随机欠采样；
其他继承方法
EasyEnsemble & BalanceCascade[Code (EasyEnsemble)] [Code (BalanceCascade)] (2008, 1300+ 引用) ，使用 RUS 进行并行集成训练(EasyEnsemble) / 使用 RUS 进行级联集成训练，同时迭代地删除分类很好的样本(BalanceCascade)；

???? 简单但有效的方法
Self-paced Ensemble [Code] (ICDE 2020) ，用自适应协调分类困难训练不平衡数据的有效集成；

???? 高性能和计算效率高，广泛适用于不同的分类器。

异常检测

Anomaly Detection Learning Resources，异常检测相关的书籍、论文、视频和工具箱。
综述
- Anomaly detection: A survey (2009, 7300+ 引用)
A survey of network anomaly detection techniques (2017, 210+ 引用)
基于分类
- One-class SVMs for document classification (2001, 1300+ 引用)
- One-class Collaborative Filtering (2008, 830+ 引用)
- Isolation Forest (2008, 1000+ 引用)
- Anomaly Detection using One-Class Neural Networks (2018, 70+ 引用)
- Anomaly Detection with Robust Deep Autoencoders (KDD 2017, 170+ 引用)

其他

不平衡数据集

上述数据集的集合来自 imblearn.datasets.fetch_datasets

其他资源

Paper-list-on-Imbalanced-Time-series-Classification-with-Deep-Learning
acm_imbalanced_learning ，2016年4月27日在德克萨斯州奥斯汀市举行的ACM不平衡学习讲座的幻灯片和代码；
imbalanced-algorithms ，基于python实现的算法学习不平衡的数据；
imbalanced-dataset-sampler ，一种(PyTorch)非平衡数据集采样器，用于过采样低频率类和欠采样高频率类；
class_imbalance ，通过 Jupyter Notebook 展示的二进制分类的类别不平衡；

最后，github 地址是：

https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

另外，本人水平有限，所以对部分专业术语的翻译可能并不正确，没法做到非常完美，请多多包涵，谢谢！

最后，如果想查看完整版，以及可以点击论文或者代码链接的，可以查看我发表在知乎上的文章：

https://zhuanlan.zhihu.com/p/142692473

精选AI文章

1. 2020年计算机视觉学习指南

2. 是选择Keras还是PyTorch开始你的深度学习之旅呢？

3. 编写高效的PyTorch代码技巧（上）

4. 编写高效的PyTorch代码技巧（下）

5. 深度学习算法简要综述(上)

6. 深度学习算法简要综述(下)

7. 10个实用的机器学习建议

8. 实战|手把手教你训练一个基于Keras的多标签图像分类器

精选python文章

1. python数据模型

2. python版代码整洁之道

3. 快速入门 Jupyter notebook

4. Jupyter 进阶教程

5. 10个高效的pandas技巧

精选教程资源文章

1. [资源分享] TensorFlow 官方中文版教程来了

2. [资源]推荐一些Python书籍和教程，入门和进阶的都有！

3. [Github项目推荐] 推荐三个助你更好利用Github的工具

4. Github上的各大高校资料以及国外公开课视频

5. GitHub上有哪些比较好的计算机视觉/机器视觉的项目？

欢迎关注我的微信公众号--算法猿的成长，或者扫描下方的二维码，大家一起交流，学习和进步！

如果觉得不错，在看、转发就是对小编的一个支持！

spearhead_cai

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
Github|类别不平衡学习资源(下）

点击上方“算法猿的成长“，关注公众号，选择加“星标“或“置顶”总第 139 篇文章，本文大约 3600字，阅读大约需要 10分钟继续介绍类别不平衡学习资源，github 地址：htt...
复制链接

扫一扫