PCA;MDS;TSNE

PCA:

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA采用一个线性变换将数据变换到新的坐标系统,使得任何数据点投影到第一个坐标的方差最大,第二个坐标方差为第二大,依此类推。因此,PCA可以减少数据维数,并保持对方差贡献最大的特征。
优点:

    使得数据集更易使用
    降低算法的计算开销
    去除噪声;
    使得结果容易理解;
    完全无参数限制。
缺点:如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高;
特征值分解有一些局限性,比如变换的矩阵必须是方阵;
在非高斯分布情况下,PCA方法得出的主元可能并不是最优的。

MDS:

MDS的基本原理是根据数据集的相似程度,计算各数据点在K维空间中的位置。算法的关键在于定于数据点之间的距离函数,使其尽可能逼近数据在原始高维空间的相似程度。
缺点:结果不具备旋转无关性,即两次计算获得全局最优解需要实施旋转变换后才会一致。此外,不同的初始值可能导致结果不同,即陷入局部最优因此,使用MDS法时只能关注数据点在低位空间的相对位置,而不是绝对位置。

t-SNE:

   SNE是通过仿射变换将数据点映射到概率分布上,主要包括两个步骤:
    SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。
    SNE在低维空间里在构建这些点的概率分布,使得这两个概率分布之间尽可能的相似。
    t-SNE是在SNE的基础上进行了以下两点改进:
    使用对称SNE,简化梯度公式
    低维空间使用t分布取代高斯分布
优点:改变了MDS中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变,SNE将高维和低维中的样本分布都看作高斯分布,而Tsne将低维中的坐标当做T分布,这样做的好处是为了让距离大的簇之间距离拉大,从而解决了拥挤问题。
    tSNE在使用时只需要稍微调整参数,就能在不同规模下展现高维数据点的聚类。
缺点:

   主要用于可视化,很难用于其他目的。
    t-SNE倾向于保存局部特征,对于本征维数本身就很高的数据集,是不可能完整的映射到2-3维的空间
    t-SNE没有唯一最优解,且没有预估部分。
    训练太慢。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值