Wrapper approach
基于包装器方法的UFS方法根据特征搜索策略可分为三大类:顺序、仿生和迭代。在前者中,按顺序添加或删除特征。基于顺序搜索的方法易于实现,速度快。另一方面,仿生方法试图在搜索过程中加入随机性,以避免局部最优。最后,迭代方法将无监督特征选择问题转化为估计问题,从而避免了组合搜索,从而解决了无监督特征选择问题。
Sequential methods
Dy和Brodley(2004)介绍了这一类中最杰出的方法之一。在这项工作中,评估了两个特征选择标准:最大似然标准(ML)和分散可分性标准(跟踪标准TR)(Fukunaga 1990)。该方法通过特征子集空间进行搜索,对每个候选子集进行如下评估:首先,对每个候选子集描述的数据应用期望最大化(EM)(Dempster et al.1977)或k-均值(MacQueen 1967)聚类算法。然后,使用ML或TR标准对获得的簇进行评估。该方法使用正向选择搜索来生成将如上所述进行评估的特征子集。当所用标准值的变化小于给定阈值时,该方法结束。
在Breaban和Luchian(2011)中,提出了一种分别使用新的优化准则来最小化和最大化簇内和簇间惰性的方法。作者提出了一个无偏w.r.t.聚类数和特征数的函数,该函数基于k-均值聚类算法生成的聚类中散射矩阵方差的最小化和最大化。该函数为每个分区分配一个排名分数,该分区可以在所有可能的特征子集和聚类数的搜索空间中定义。该方法中提出的准则提供了相关特征的排序和最优划分。
Devaney和Ram(1997)提出了一种使用概念聚类算法进行特征选择的UFS方法。在这项工作中,作者开发了一种无监督的特征选择方法,该方法基于一种称为类别效用的度量,用于度量蛛网(COBWEB)层次聚类算法(Fisher 1987)发现的聚类的质量。该方法通过两种搜索策略生成特征子集:前向选择和后向消除。特征选择是使用搜索策略生成的特征子集运行蛛网算法并评估该特征子集的类别实用程序来执行的。当在向后或向前选择中无法获得更高的类别效用分数时,该过程结束。
最后,在Hruschka和Covoes(2005)中,提出了一种称为SS-SFS(简化轮廓顺序正向选择)的特征选择方法。该方法根据简化的轮廓标准选择一个提供最佳质量的特征子集。在该方法中,正向选择搜索用于生成特征子集。每个特征子集使用k-means聚类算法对数据进行聚类,并通过使用简化轮廓标准测量的聚类质量来评估特征子集的质量。选择在正向选择中产生该标准最佳值的特征子集。
Bio-inspired methods
Kim等人(2002年)介绍了这一类中具有代表性的UFS方法,其中提出了一种进化局部选择算法(ELSA),用于搜索特征子集以及基于k-均值和高斯混合聚类算法的聚类数。聚类算法提供的每个解决方案都与一个向量相关联,该向量的元素表示基于聚类的内聚性、类间分离和最大似然性的评估标准的质量。选择那些在评估阶段优化目标函数的特征。
Dutta等人(2014年)介绍了另一种同样基于进化算法的方法。在这项工作中,在使用多目标遗传算法(MOGA)对数据进行聚类的同时执行特征选择。该方法提出了一种多目标适应度函数,使簇内距离(均匀性)最小化,簇间距离(分离度)最大化。每个染色体代表一个解,该解由一组由特征子集描述的k个聚类质心(连续特征的聚类中心和分类特征的聚类模式)组成。每个染色体中用于每个质心的特征数是随机生成的,初始群体中染色体的聚类中心和聚类模式是通过分别从同一特征域生成随机数和特征值来创建的。然后,为了重新分配聚类质心,MOGA使用k-Prototype聚类算法(Huang 1997,1998),该算法从上一步生成的初始种群中获取输入。然后,应用交叉、变异和替换算子,并重复该过程,直到满足预先指定的停止标准。在最后一个阶段,该方法返回优化适应度函数的特征子集及其生成的簇。
Iterative
Law等人(2004年)提出了这一类别中的一种杰出方法。该方法提出了一种使用EM(Expectation Maximization, Dempster et al.1977)聚类算法对数据进行聚类并同时执行特征选择的策略。其思想是估计一组称为“特征显著性”(每个特征一个)的权重(真实值在[0,1]),以量化每个特征的相关性。此估计由针对任务推导的改进EM算法执行。该方法返回建模组件(簇)的密度函数的参数,以及一组特征显著值。然后,用户可以考虑那些区别于不同组件(具有最高值的那些)的特征显著性。与之前的方法类似,Roth和Lange(2004)中,作者使用高斯混合模型(Figueiredo和Jain 2002)同时执行特征选择和聚类。在该方法中,想法是通过EM聚类算法优化高斯混合模型,其中该算法的最大化步骤被重新表示为l1约束套索问题(Tibshirani 1996;Osborne et al.2000)。该方法返回聚类以及模型的系数;系数表示每个特征的相关性。
近年来,已经提出了使用聚类算法初始化或优化稀疏学习模型的包装器方法,Zeng和Cheung(2011)、Wang et al.(2015b)、Guo et al.(2017)以及Guo和Zhu(2018)中介绍的方法就是如此。LLC-fs (Local Learning- based Clustering algorithm with feature selection) 提出了一种称为LLC-fs(基于局部学习的特征选择聚类算法)的包装方法。在该方法中,假设每个点的聚类指标值应通过岭回归模型进行估计。作者建议使用基于局部学习的聚类(LLC)框架(Wu和Schỏlkopf 2007)来制定最终的岭回归模型。特征选择是通过在模型的局部判别函数中引入二元特征选择向量τ来完成的。最后,在收敛之后,输出是向量τ以及离散化的簇指示符矩阵。EUFS (Embedded Unsupervised Feature Selection)Wang等人(2015b)提出了一种称为EUFS(嵌入式无监督特征选择)的方法,该方法通过稀疏学习将特征选择直接嵌入到聚类算法中。在这项工作中,引入了基于l2,1范数的损失函数的非凸稀疏回归模型,并通过交替方向乘数法进行了优化(Boyd et al.2011)。EUFS使用k均值聚类算法初始化最终模型中的伪聚类指标矩阵U和潜在特征矩阵V(用于指示特征权重)。一旦模型收敛,输出是根据潜在特征矩阵的最终值以及伪聚类指标排序的特征排序。郭等人(2017年)介绍了一项基于与前一项工作相同理念的最新工作。该方法提出了与EUFS相同的目标函数,不同之处在于最终模型的损失函数使用Frobenius范数而不是l2,1范数,并且通过k均值聚类算法迭代执行U和V的更新,直到模型收敛。DGUFS (Dependence Guided Unsupervised Feature Selection)此外,在Guo和Zhu(2018)中,上一篇文章的第一作者提出了另一种包装方法,称为DGUFS(依赖引导的无监督特征选择),该方法使用基于l2,0-范数的约束模型同时执行特征选择和聚类(可以使用Li等人(2014a)提出的约束布尔矩阵分解(CBMF)算法或特征分解和穷举搜索进行聚类)。使用基于迭代交替方向乘数法的改进算法对模型进行优化(Boyd等人,2011年)。