fcbf特征选择python_一文读懂 聚类特征选择

《Feature Selection for Clustering:A Review》

0.1 introduction介绍

高通量技术导致数据维度以及样本数量呈指数增长,使得对数据集进行手动处理显得不太实际。但是由于收集数据的技术不完善或者数据本身来源的性质,导致数据噪声。因此如何从庞大而嘈杂的数据集中提取有用的知识是一项艰巨的任务。

降维是一种可以消除噪声和冗余属性(特征)的技术。降维技术可以分为特征提取(feature extraction)和特征选择(feature selection)。

特征提取:特征被投影到一个新的低维空间。

常见的特征提取技术有:PCA、LDA、SVD。(Principle Component Analysis ,Linear Discriminant Analysis ,Singular Value Decomposition)

特征选择:从特征中选出一个子集来最小化冗余和最大化与目标的相关性。

常用的特征选择方法有:Information Gain信息增益,Relief,Chi Squares,Fisher Score,Lasso。

特征提取和特征选择方法都能提高学习性能,降低计算开销并获得更加泛化的模型。但是特征选择优于特征提取,因为特征选择有更好的可读性和可解释性,因为它仍然保持原来的特征,只是去掉了一些认为冗余的。而特征提取将特征从原始空间映射到新的低维空间,得到的转换的特征没有物理含义。

特征选择被分为四种类型:

filter model

wrapper model

embedded model

hybrid model

特征选择选择能够区分不同类样本的特征。监督学习中,将带标签的样本作为训练集以选择特征,如果

math?formula=f_i

math?formula=c_j高度相关,则称 特征

math?formula=f_i与 类

math?formula=c_j相关。无监督学习中相关性就比较难定义,但是特征选择可以类似于改进监督学习的方式改进无监督学习。最常用的无监督学习的方法是聚类,通过最大化类内相似性,最小化类间相似性得到不同的簇。利用特征选择使用好的特征子集可以帮助聚类产生好的结果并且可以大幅降低计算开销。

0.1.1 Data Clustering 聚类

数据量太大,人工做标签非常困难。通常用聚类的方式进行数据标记。在聚类中,给出未标记的数据,将类似的样本放在一个簇中,不同的样本应该在不同的簇中。

聚类在很多机器学习和数据挖掘任务中很有用,如:图像分割,信息检索,模式识别,模式分类,网络分析等。它可以被视为探索性任务或预处理步骤。如果目标是探索和揭示数据中隐藏的模式,那么聚类本身就是一个独立的探索任务。但是,如果生成的聚类结果将用于促进另一个数据挖掘或机器学习任务,则在这种情况下,集群将是预处理步骤。

有许多聚类方法。这些方法可以大致分为:

分区方法

使用基于距离的度量来基于它们的相似性对点进行聚类。 K-means和k-medoids是流行的分区算法。

分层方法

分层方法将数据划分为不同级别,形成层次结构。这种聚类有助于数据可视化和摘要。分层聚类可以以自下而上(agglomerative汇聚)方式或自上而下(divisive分裂)方式进行。这种类型的聚类的例子是BIRCH,Chameleon,AGNES,DIANA。

基于密度的方法

与这两种聚类技术不同,基于密度的聚类可以捕获任意形状的聚类,例如S形。密集区域中的数据点将形成簇,而来自不同簇的数据点将由低密度区域分开。 DBSCAN和OPTICS是基于密度的聚类方法的流行示例。

0.1.2 Feature Selection Models 特征选择

高维数据的维度之咒,使得降维非常重要。特征选择是降维的一种重要手段。

特征选择是根据某些相关性评估标准,从原始特征中选择一小部分相关特征,这通常会带来更好的学习性能,例如:更高的学习准确性,更低的计算成本和更好的模型可解释性。特征选择已成功应用于许多实际应用,如模式识别,文本分类,图像处理,生物信息学等。

特征选择的分类

1、根据是否使用标签,可以分为无监督、半监督、有监督算法。

2、根据不同的选择策略,特征选择算法可以分为:

Filter模型

独立于任何分类器,通过使用某些统计标准研究特征的相关性来评估特征的相关性。

Relief [59],Fisher score[16],CFS [24]和FCBF [76]是Filter模型中最具代表性的算法。

Wrapper模型

利用分类器作为选择标准,使用给定的分类器选择一组具有最大判别力的特征,例如:SVM,KNN等。

例子有FSSEM[17],

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值