PCA-tSNE-UMAP 比较
PCA、tSNE 和 UMAP 特征可视化或缩减技术的比较。
降维有两种主要方法。
它们是投影和流形学习。投影方法尝试将高维中的每个数据点投影到低维,同时保留它们之间的距离。在流形学习中,算法通过对训练实例所在的流形进行建模来工作。流形学习方法的优点是它们是非线性方法,因此它们可以以非线性方式以更少的努力将接近的样本相互关联。
1.PCA 是一种投影算法,它试图识别最接近数据的超平面,然后将数据投影到该超平面上,同时保留方差。第一个组件捕获最大的方差。
2.t-SNE 是一种流形学习方法,它试图通过为每个数据点提供二维或三维空间中的位置来将高维数据集简化为低维图,从而保留大量原始信息。它对于高维数据集的可视化非常有用,因为它可以在数据中找到聚类。它试图使相似的实例保持紧密,不同的实例分开。
3.UMAP 也是一种流形学习方法,可以非常有效地可视化数据点簇或数据点组及其相对邻近度。UMAP 与 t-SNE 的区别在于可扩展性,它使我们能够将其直接应用于稀疏矩阵。它也比 t-SNE 更快。
图:UMAP 特征空间可视化显示源域和目标域对齐