增量学习+非平衡学习
现有研究及如何进行实验
不涉及类变化的
learn++.SMOTE
环境
no-stationary environment / concept drift
方法
learn++.NSE+SMOTE
论文
实验
实验数据
一个合成的高斯数据(有concept drift)和一个真实数据elec2(nonstationary and that involve class imbalance)
比较算法
Learn ++.NSE and Learn++ .SMOTE、Bayes classifier
比较指标
f-measure and recall
实验结论
提高recall
learn++.NIE和 learn++.SMOTE
环境
no-stationary environment / concept drift
方法
learn++.SMOTE: learn++.NSE+SMOTE
learn++.NIE: 针对每个batch创建一个子分类器,用一种新的方法(不是error)来给权重
论文
实验
实验数据
一个合成的高斯数据(有concept drift)和一个真实数据集SEA(nonstationary and that involve class imbalance)
比较算法
Learn ++.NSE and Learn ++.SMOTE、Learn ++.NIE
比较指标
f-measure and recall
实验结论
分析了不同的算法在不同指标,不同情况下的表现(不同的IR)
Multiple Windows (MW)
环境
stream/multi-label
方法
对每个label维系两个固定大小的windows,一个用来处理positive数据,一个用来处理negative数据。用batch-incremental thresholding方法来处理类别不平衡。
论文
实验
实验数据
three large real-world textual multi-label datasets(tmc2007、imdb、rcv1v2)
比较算法
MW、SW(single Window)、EBR(ensemble of binary relevance)
比较指标
F1、AUC
实验结论
分析了不同的算法在不同数据集,不同情况下的表现
DCIL-IncLPSVM
环境
data batch
方法
提出了一种multi-class的算法,dynamic class imbalance learning (DCIL) approach to incremental LPSVM (Linear Proximal Support Vector Machines ) modeling
论文
实验
实验数据
static datasets with various degrees of class imbalance
data streams with dynamic class imbalances
均为二分类数据
比较算法
LPSVM、SVM、SMOTE+LPSVM、DCIL-IncLPSVM、weighted LPSVM、weighted SVM、partitioning ensemble SVM
比较指标
Sensitivity、Specificity、 F -measure、 G-mean 、Training time
实验结论
分析了不同的算法在不同指标,不同情况下的表现(不同的IR)
MOOB、MUOB
环境
stream/multi-label
方法
Multi-class Oversampling-based Online Bagging (MOOB)
Multi-class Undersampling-based Online Bag- ging (MUOB)
在online bagging(OB)上使用上下采样
论文
实验
实验数据
Stationary Data
Multi-Minority Data(多个minority,一个majority)
Multi-Majority Data(多个majority,一个minority)
Dynamic Data
Artificial Data(有类的出现和消失,2个minority类,2个majority类)
real-world data(online chess game and UDI
TweeterCrawl data)
比较算法
MOOB,MUOB,VWOS-ELM、OB
比较指标
G-mean
实验结论
分析了不同的算法在不同数据集,不同情况下的表现
涉及类变化的
learn++.NovelClass
是在learn++基础上提出的一种算法,提出了 DW-CAV(dynamically weighted consult and vote),能够解决新类出现的问题。
论文:
Muhlbaier M , Muhlbaier M , Topalis A , et al. Learn++.NC: Combining Ensemble of Classifiers Combined with Dynamically Weighted Consult-and-Vote for Efficient Incremental Learning of New Classes[J]. IEEE Transactions on Neural Networks, 2009, 20(1):152.
ECSMiner
使用了新类识别机制,在类别标签到来之前就能识别出新类的出现。
论文:
Masud, M.M., Gao, J., Khan, L., Han, J., Thuraisingham, B.M.: Classification and novel class detection in concept-drifting data streams under time constraints. IEEE Trans. Knowl. Data Eng. 23(6), 859–874 (2011)
Multiclass Miner in Data Streams (MCM)
它是在新类识别+集成的扩展版本,能处理新特征出现的情况。
Masud, M.M., Chen, Q., Khan, L., Aggarwal, C.C., Gao, J., Han, J., Srivastava, A.N., Oza, N.C.: Classification and adaptive novel class detection of feature-evolving data streams. IEEE Trans. Knowl. Data Eng. 25(7), 1484–1497 (2013)
AnyNovel
它也是在集成的基础上做的,分为两步聚类,首先,有监督的学习将初始数据聚类,然后用无监督的聚类算法检测群的子概念。
Abdallah, Z.S., Gaber, M.M., Srinivasan, B., Krishnaswamy, S.: Anynovel: detection of novel concepts in evolving data streams. Evol. Syst. 7(2), 73–93 (2016)
Class-Based Ensemble for Class Evolution (CBCE)
对于每一个类,都有一个基础的分类器,还使用了下采样来解决类别不平衡问题。
Sun, Y., Tang, K., Minku, L.L., Wang, S., Yao, X.: Online ensemble learning of data streams
with gradually evolved classes. IEEE Trans. Knowl. Data Eng. 28(6), 1532–1545 (2016)
Class Based Micro Classifier Ensemble (CLAM) and Stream Classifier And Novel and Recurring Class Detector (SCARN)
CLAM是一个基于集成的分类器,每个分类器只对单类负责。如果来了新类,就训练一个新的分类器。
Al-Khateeb, T., Masud, M.M., Al-Naami, K., Seker, S.E., Mustafa, A.M., Khan, L., Trabelsi, Z., Aggarwal, C.C., Han, J.: Recurring and novel class detection using class-based ensemble for evolving data stream. IEEE Trans. Knowl. Data Eng. 28(10), 2752–2764 (2016)
下一步研究方向
改善incremental learning