特征选择、数据降维与聚类的区别与联系

        对于许多机器学习的初学者,可能对以上的概念没有特别清楚的区别,但是三者的区别还是很大的。

        特征选择和数据降维的目的都是使得数据的特征数目(属性值/维数)减小,但是二者却有着本质的不同。

        特征选择是指在特征值不变的情况下,从原特征集中选取部分具有代表性的特征(删除冗余和不相关的特征)组成新的特征集合,没有改变原特征空间,但是维数也会相应减少。

        数据降维改变特征值,是从一个高维空间映射到另一个较低维空间,特征数目不变。

        聚类是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即类内足够近,类间足够远。聚类属于无监督学习,不需要先验知识进行数据训练。

        常见的特征选择算法有:Pearson相关系数、正则化、随机森林等。

        常见的降维算法有:主成分分析PCA、多维缩放MDS、线性判别分析LDA、等度量映射Isomap、局部线性嵌入LLE、t-SNE等。

        常见的聚类算法有:K-means(K均值算法)、BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies,基于层次)、DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度)、STING(STatistical INformation Grid,基于网格)、SOM(Self Organized Maps,基于模型)、FCM(模糊C均值,基于模糊)等。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值