scikit-learn:4.4. Unsupervised dimensionality reduction(降维)

参考:http://scikit-learn.org/stable/modules/unsupervised_reduction.html


对于高维features,常常需要在supervised之前unsupervised dimensionality reduction。



下面三节的翻译会在之后附上。

4.4.1. PCA: principal component analysis

decomposition.PCA looks for a combination of features that capture well the variance of the original features. See Decomposing signals in components (matrix factorization problems). 翻译文章参考:http://blog.csdn.net/mmc2015/article/details/46867597

4.4.2. Random projections

The module: random_projection provides several toolsfor data reduction by random projections. See the relevant section of the documentation: Random Projection. 翻译文章参考:http://blog.csdn.net/mmc2015/article/details/47067003

4.4.3. Feature agglomeration(特征集聚)

cluster.FeatureAgglomeration applies Hierarchical clustering to group together features that behave similarly.

Feature scaling

Note that if features have very different scaling or statistical properties, cluster.FeatureAgglomeration may not be able to capture the links between related features. Using a preprocessing.StandardScaler can be useful in these settings.



Pipelining:The unsupervised data reduction and the supervised estimator can be chained in one step. See Pipeline: chaining estimators.


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【流行学习简介】:假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,线性方法就是传统的方法如主成分分析(PCA)和线性判别分析(LDA),非线行流形学习算法包括等距映射(Isomap),拉普拉斯特征映射(LE)等。 【文件包括】: (1)12篇在流形学习理论中具有里程碑意义的文献: [2000] A Global Geometric Framework for Nonlinear Dimensionality Reduction [2000] Nonlinear Dimensionality Reduction by Locally Linear Embedding [2000] the Manifold Ways of Perception [2003] Hessian Eigen-maps: New Locally Linear Embedding Techniques for High-dimensional Data [2004] Locality Pursuit Embedding [2005] Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment [2005] 高维数据流形的低维嵌入及嵌入维数研究 [2005] 基于放大因子和延伸方向研究流形学习算法 [2005] 一种改进的局部切空间排列算法 [2006] 流形学习概述 [2008] Agent普适机器学习分类器 [2008] 基于流形学习的纤维丛模型研究 其中,前两篇在2000年刊登在Science上。 (2)一篇介绍这些文献的总论短文,梳理了文献的门类,介绍了如何更快地从体系上了解流形学习技术。 【注】:这些资料的总价值在100美元左右,均有英文版本,本人吐血奉献,希望大家能从中收益。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值