在数据分类的研究中,普遍存在类别分布不平衡[的问题,即某一类别的样本数量远远多于另一类(分别称为多数类和少数类),具有这样特征的数据集视为不平衡。传统的分类算法,如支持向量机(SVM)在处理不平衡数据时,分类超平面往往会向少数类偏移,导致对少数类的识别率降低,而随机森林(random forest,RF[)分类时易出现分类不佳、泛化误差变大等问题。针对支持向量机在训练样本点过程中存在的噪声和野点问题,不少研究学者提出了相应的改进算法。如台湾学者Lin等[提出模糊支持向量机(fuzzy support vector machines,FSVM),根据不同数据样本对分类的贡献不同,赋予不同的隶属度,将噪声和野点与有效样本区分开,然而实际数据集中除了存在噪声和野点,不同类别的样本个数差异也会影响算法的分类精度。目前对不平衡数据分类的研究主要集中在算法层面和数据层面的改进,如通过对不平衡数据集进行欠采样(under-sampling[)、过采样(SMOTE[)、不同惩罚因子的方法(different error costs,DEC[)和集成学习方法[等,这些方法在处理不平衡数据时一定程度上提高了少数类的分类精度,然而欠采样在删除样本点时易造成重要信息的丢失,过采样又会带来信息的冗余,并增大算法时间复杂度,代价敏感学习算法虽然定义了正负类不同的惩罚因子,但却没有考虑到样本点的实际分布情况,这些问题又会直接影响算法的分类效果。传统的分类方法在构建分类模型时仅考虑了数据样本点的物理特征(如距离、相似度等),并没有更深层次地挖掘数据点之间的关联特征,但实际应用中的数据集样本之间并不是孤立存在的,它们之间除了位置上的差异,关联信息也是不可忽略的。
Silva等[将仅考虑样本点物理特征的传统分类方法视为低层次分类,把数据样本点看作网络节点,提出了基于网络信息特征的高层次数据分类方法,在训练样本点分类模型时既考虑了样本点的位置关系,又考虑到了数据点之间的拓扑特征,将两个层次的分类器有效地结合,并在数字图像识别中取得较高的准确度。Carnerio等[提出了基于复杂网络的新型分类器,通过KNN法或KAOG[法建立子网络模型,利用谷歌PageRank度量方法赋予网络节点不同影响力概念,依据Spatio structural effi-ciency和节点间的距离特征实现分类。文献[
鉴于高层次数据分类方法在无偏数据集上的优越性,本文从数据样本点的物理特征和拓扑特征方向出发,综合考虑数据点之间的位置关系和关联信息,提出基于网络拓扑特征的不平衡数据分类方法(imbalanced data classification of network tolopogy characteristics,NT-IDC)。首先利用KNN法建立与每类数据点对应的网络结构,将数据样本实例对应网络中的节点,使具有相同类别的网络节点之间产生连边,并依据其连接特性计算出每个节点的局部效率作为拓扑信息,应用基于距离倒数的相似度作为两个节点产生连边概率的物理特征,将拓扑特征与样本点的物理特征一起作为判别测试点类别归属的依据,为了克服由不同类别的数据样本点个数差异带来的影响,构建了一种引入不平衡因子
$c$ 的新型概率模型。本文所建立的基于数据点物理特征和拓扑特征的分类模型更加符合实际数据集样本点的分布情况,实验验证了本文所提方法具有可行性和有效性,与传统的分类器模型有着一定的区别。
1 相关概念
基于网络拓扑特征的不平衡数据分类算法包括两个阶段:网络的构建和测试点的类别预测。利用较为常见的KNN法对训练数据集
$X = \{ {x_1}, {x_2}, \cdot \cdot \cdot , {x_N}\} $ 中的每一个样本点,从其前
$k$ 个最近的邻居节点中找到标签信息相同的节点并在两点之间建立一条有向边,每个数据样本点
$ {x_{ i}} (i = 1 , 2 , \cdot \cdot \cdot ,N)$ 与网络中的节点
$ {v_{ i}} (i = 1 , 2, \cdot \cdot \cdot , N )$ 对应,且节点
$ {v_{ i}} $ 与样本点
$ {x_{ i}} $ 具有相同的标签类型,建立网络邻接矩阵A,这样就将整个数据集映射成带有节点标签信息的网络
$G(V,E,L)$,$V$ 是节点集合,E是边的集合,L =
$ \{ {l_1}, {l_2}, \cdot \cdot \cdot , {l_m}\} $ 是标签集合。在预测阶段,利用文中构建的分类模型去判断测试数据样本点Y =
$ \{ {x_{N + 1}},{x_{N + 2}}, \cdot \cdot \cdot , x{}_{N + m}\} $ 的标签类型,对于已经判断过标签类型的测试节点,选择直接丢弃的策略,不再归合到由训练点所建立的子网络结构中,$k = 3$,最终将测试点归为整体性测度大的类别。
1.1 节点局部效率
复杂网络由图论逐渐发展而来,基于图论的网络结构模型在表达数据之间的关系时具有明显的优势[为
${p_i} = \left\{ {\begin{array}{l} {\delta ,}\quad{ {D_{ i}} = 0} \\ {\frac{1}{ { {D_{ i}}}}\sum\limits_{ {e_{ ij}}} { {d_{ ij}},} }\quad{ {D_{ i}} > 0} \end{array}} \right.$
(1)
式中:${p_i}$ 为节点
$ {v_{ i}} $ 的局部效率;${D_i}$ 为以节点
$ {v_{ i}} $ 为起点的有向边的个数;$ {e_{ i j}} $ 表示以节点
$ i$ 为起点,$ j $ 为尾点的边;$ {d_{ i j}} $ 是节点
$ i$ 与
$ j $ 间的距离;$\delta $ 是一个很小的正数,利用数据样本点建立的网络分类器可有效地减弱噪声和野点的影响,当节点是噪声点或野点时,其局部效率为
$\delta $,可忽略不计。
图 1
图 1 NT-IDC的图解
Fig. 1 The diagram of NT-IDC
1.2 基于相似度的类别归属
将数据样本点映射成网络节点,则待测样本点的类别归属与网络中的每个节点都有关系,一般来说,距离越近的两个节点属于同类的可能性就越大。
基于这种思想&#