之前对于遗传算法的学习有些囫囵吞枣,知道大致思想是自然选择、优胜劣汰,通过大自然一代又一代的选择将适合的基因和物种逐渐保留下来,但是中间过程是如何实现的却并不清楚。
这次有缘读了加利福尼亚大学几位老师写的关于在不平衡数据集上进行过采样相关的论文,他们巧妙地将遗传算法用于过采样的过程中,生成了一种新采样算法GenSample,主要来处理四类少数样本(safe、borderline、rare、outliers)中极难处理的离群值(outliers),来有效的避免SMOTE算法和ADASYN算法中的一些缺陷,同时对Decision Tree、SMOTE、ADASYN和GenSample在9个数据集上的表现进行了6个方面的比较(Precision、Recall、F1 score、AUG、Accuracy、Geometric Mean),发现在Accuracy、F1 score和Precision上GenSample占据绝对优势,在recall和Geometric Mean上的大部分时间里要比其它方法表现更好。
论文:GenSample: A Genetic Algorithm for Oversampling in Imbalanced Datasets
在阅读这篇文章前,需要对遗传算法有个初步的了解,但是网络上一些博客介绍的较为模糊,并且会涉及到一系列难以下咽的专业名词,让人摸不着头脑。经过不断摸索之后,终于找到了一篇浅显易懂、清晰明了的讲解。
遗传算法:10分钟搞懂遗传算法(含源码)
4083

被折叠的 条评论
为什么被折叠?



