文献地址:Online feature selection for high-dimensional class-imbalanced data - ScienceDirect
1.本文写作的动机为:在真实的应用程序中,如欺诈检测和医疗诊断,数据是高维的,类是高度不平衡,在这种类不平衡的情况下,现有的在线特征选择算法通常会忽略在这些应用中可能很重要的小类,因此本文就对高维,不平衡数据的在线特征选择进行了研究。
流特征:
在线流的特征选择对象的数量是固定的,特征集是随时间增长的。在每个时间戳中,我们只能从流特征中得到一个特征,而整个特征空间是未知或不可访问的
2.本篇论中利用了K-最近邻域粗糙集这一理论来选择不平衡数据的特征。
下面是一个文献中的补充知识点
让我们以对象x3和特征集B = {f1, f2}和2个最近邻域为例,则kB(x3) = {x7, x2}。