如果您的特征数量很多,则在进行有监督步骤之前先通过无监督步骤来减少特征数量是很有用。许多
无监督学习
方法都实现了可用于降低维度的
transform
方法。下面,我们讨论已经被大量使用的无监督降维模式的两个具体示例。
管道(Pipelining)
无监督的数据降维和监督估计器可以一步一步地链接在一起。请参阅
管道:链式估计器
。
1. PCA:主成分分析
decomposition.PCA
可以寻找能够很好地捕捉原始特征方差的一个特征组合。请参阅
信号分量分解(矩阵因子分解问题)
。
示例
- 使用特征脸和SVM进行脸部识别
2.随机投影
random_projection
提供了几种通过随机投影进行数据降维的工具。请参阅文档的相关部分:
随机投影
。
示例
- 使用随机投影进行Johnson-Lindenstrauss边界(bound)嵌入
3.特征集聚
cluster.FeatureAgglomeration
类应用
层次聚类(Hierarchical clustering)
来将相似的特征进行分组。
示例
- 特征集聚与单变量选择
- 特征集聚
cluster.FeatureAgglomeration
类可能无法捕获相关特征之间的联系。在这种情况下,使用
preprocessing.StandardScaler
类可能很有用。
文壹由“伴编辑器”提供技术支持
☆☆☆为方便大家查阅,小编已将scikit-learn学习路线专栏 文章统一整理到公众号底部菜单栏,同步更新中,关注公众号,点击左下方“系列文章”,如图:欢迎大家和我一起沿着scikit-learn文档这条路线,一起巩固机器学习算法基础。(添加微信:mthler,备注:sklearn学习,一起进【sklearn机器学习进步群】开启打怪升级的学习之旅。)