【机器学习】sklearn核心降维算法比较

最新推荐文章于 2024-10-04 21:21:54 发布

渣渣灰和古天罗

最新推荐文章于 2024-10-04 21:21:54 发布

阅读量1.1k

点赞数 29

文章标签：机器学习 sklearn 算法

本文链接：https://blog.csdn.net/weixin_41359455/article/details/141720326

版权

sklearn的核心降维算法比较

1. PCA (Principal Component Analysis) - 主成分分析

目标：PCA 的目标是找到数据的主成分，即数据方差最大的方向。它通过线性变换将数据转换到一个新的坐标系中，使得每一个维度都是原始数据的一个线性组合，并且这些新维度是正交的。
应用场景：PCA 通常用于数据预处理阶段，减少数据的维度，去除冗余特征，并且可以用于数据可视化。
优点：简单快速，能有效降低数据维度，同时保留数据的主要特征。
缺点：只能捕捉线性关系，对于非线性关系的数据降维效果不佳。

2. t-SNE (t-distributed Stochastic Neighbor Embedding) - t-分布随机邻居嵌入

目标：t-SNE 的目标是在低维空间中保持样本间的局部相似性，即高维空间中彼此接近的点在低维空间中仍然彼此接近。
应用场景：主要用于数据可视化，特别适用于高维数据的降维。
优点：能够很好地保留数据的局部结构，即使数据具有复杂的非线性关系。
缺点：计算成本较高，不适合大规模数据集；结果可能依赖于初始条件。

3. LDA (Linear Discriminant Analysis) - 线性判别分析

目标：LDA 是一种监督学习方法，它的目标是在保持类间差异最大的同时，最小化类内差异。LDA 试图找到一个投影，使得不同类别的样本在低维空间中尽可能分开。
应用场景：主要用于分类问题中的特征选择和降维，特别是在类别标签已知的情况下。
优点：能够很好地分离不同类别的数据，适用于有标签的数据集。
缺点：假设数据符合高斯分布，且类间协方差矩阵相等。

4. TruncatedSVD - 截断奇异值分解

目标：TruncatedSVD 是 SVD（奇异值分解）的一种简化版本，用于降维。它将数据矩阵分解为三个矩阵的乘积，然后截取前 k 个最大的奇异值对应的左奇异向量和右奇异向量，从而达到降维的目的。
应用场景：适用于稀疏数据集，如文本数据的 TF-IDF 表示。
优点：能够处理非常大的稀疏矩阵，计算效率较高。
缺点：同样只能捕捉线性关系。

源码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA, TruncatedSVD
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.manifold import TSNE

#