PCA；MDS；TSNE

最新推荐文章于 2025-03-02 19:55:56 发布

爱打网球的小哥哥一枚吖

最新推荐文章于 2025-03-02 19:55:56 发布

阅读量642

点赞数 12

文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/XUYH6904/article/details/135313882

版权

PCA:

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA采用一个线性变换将数据变换到新的坐标系统，使得任何数据点投影到第一个坐标的方差最大，第二个坐标方差为第二大，依此类推。因此，PCA可以减少数据维数，并保持对方差贡献最大的特征。
优点：

    使得数据集更易使用；
   降低算法的计算开销
   去除噪声；
   使得结果容易理解；
   完全无参数限制。
缺点：如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高；
特征值分解有一些局限性，比如变换的矩阵必须是方阵；
在非高斯分布情况下，PCA方法得出的主元可能并不是最优的。

MDS:

MDS的基本原理是根据数据集的相似程度，计算各数据点在K维空间中的位置。算法的关键在于定于数据点之间的距离函数，使其尽可能逼近数据在原始高维空间的相似程度。
缺点：结果不具备旋转无关性，即两次计算获得全局最优解需要实施旋转变换后才会一致。此外，不同的初始值可能导致结果不同，即陷入局部最优。因此，使用MDS法时只能关注数据点在低位空间的相对位置，而不是绝对位置。

t-SNE：

   SNE是通过仿射变换将数据点映射到概率分布上，主要包括两个步骤：
   SNE构建一个高维对象之间的概率分布，使得相似的对象有更高的概率被选择，而不相似的对象有较低的概率被选择。
   SNE在低维空间里在构建这些点的概率分布，使得这两个概率分布之间尽可能的相似。
   t-SNE是在SNE的基础上进行了以下两点改进：
   使用对称SNE，简化梯度公式
   低维空间使用t分布取代高斯分布
优点：改变了MDS中基于距离不变的思想，将高维映射到低维的同时，尽量保证相互之间的分布概率不变，SNE将高维和低维中的样本分布都看作高斯分布，而Tsne将低维中的坐标当做T分布，这样做的好处是为了让距离大的簇之间距离拉大，从而解决了拥挤问题。
   tSNE在使用时只需要稍微调整参数，就能在不同规模下展现高维数据点的聚类。
缺点：

   主要用于可视化，很难用于其他目的。
   t-SNE倾向于保存局部特征，对于本征维数本身就很高的数据集，是不可能完整的映射到2-3维的空间
   t-SNE没有唯一最优解，且没有预估部分。
   训练太慢。