白话tSNE原理与一些实践细节

SNE基本原理:假设xi,xj是高维空间中的两个点,那么以点xi为中心构建方差为σi的高斯分布,使用 pj|i表示xj是xi邻域的概率,如果xj离xi很近,那么pj|i很大,反之,pj|i很小
在这里插入图片描述

那么在低维空间中也可以使用这样的条件概率来定义距离,假设 xi,xj,映射到低维空间后对应 yi,yj,yj 是 yi邻域的条件概率为 qj|i

img

具体来讲,SNE算法的目标是在低维空间中找到一组点,使得这些点之间的相似性分布与高维空间中的相似性分布尽可能接近:先在高维空间中使用概率分布来表达相似性,然后初始化低维空间的点对应着高维空间的相似性,再计算低维空间的概率分布;再使用KL散度用来衡量高维空间和低维空间的相似性分布之间的差异,使用梯度下降法来迭代更新低维点的坐标,然后不断重复这个优化过程。

SNE的缺陷:

  • 不对称导致梯度计算复杂,对目标函数计算梯度如下,由于条件概率 pj | i𝑝𝑗|𝑖 不等于 pi | j𝑝𝑖|𝑗,qj | i𝑞𝑗|𝑖 不等于 qi | j𝑞𝑖|𝑗,因此梯度计算中需要的计算量较大。

  • 拥挤问题:所谓拥挤问题,顾名思义,就是不同类别的簇挤在一起,无法区分开来,这就是拥挤问题。有人说,是不是因为SNE更关注局部结构,而忽略了全局结构造成的?实际上,拥挤问题的出现与某个特定算法无关,而是由于高维空间距离分布和低维空间距离分布的差异造成的。

    请添加图片描述

    假设一个以数据点 𝑥𝑖为中心,半径为 r 的 m 维球(二维空间就是圆,三维空间就是球),其体积是按 r 的 m 次方增长的,假设数据点是在 m 维球中均匀分布的,我们来看看其他数据点与𝑥𝑖的距离随维度增大而产生的变化。从图中可以看到,随着维度的增大,大部分数据点都聚集在 m 维球的表面附近,与点𝑥𝑖的距离分布极不均衡。如果直接将这种距离关系保留到低维,肯定会出现拥挤问题。

  • 由于K - L散度本身的不对称性,使得SNE算法只关注数据局部性而忽略了数据的全局性。

解决方法:t-SNE的出现:在低维空间用t分布代替高斯分布

局限性:t-SNE 没有唯一最优解,且不能用于预测,比如测试集合降维,因为他没有显式的预估部分,不能在测试集合直接降维,显示的预估还是得显式函数来做。

显式函数的优点:

  1. 模型的可解释性:

    • 显式映射函数提供了一种明确的数学表达式,描述了高维数据如何转换为低维表示。
    • 通过分析映射函数的系数或权重,可以了解不同特征对降维结果的贡献和重要性,提供了一定的可解释性。
  2. 降维过程的可控性:

    • 显式映射函数允许对降维过程进行更直接的控制和调整。
    • 通过修改映射函数的参数或结构,可以根据需要调整降维的行为,如调整降维后的维度、引入正则化项等。

资源推荐:入门的:t-SNE算法-CSDN博客

进阶的:meta研究员所写的,基本涵盖了所有相关内容:t-SNE – Laurens van der Maaten

实际使用:基于我的项目来说:在实际使用中,底层原理没那么关键,在python代码中直接用 from sklearn.manifold import TSNE就可以导入TSNE,关键参数是perplexity。
  • perplexity的值与数据集大小有关:
    • 对于较小的数据集(例如,少于100个数据点),建议使用较小的perplexity值(5到10)。
    • 对于较大的数据集,可以使用较大的perplexity值(30到50)。
    • 总的原则是,perplexity的值应该小于数据点的数量。
  • perplexity影响局部结构和全局结构的平衡:
    • 较大的perplexity值会关注数据的全局结构,产生更大范围的吸引力,数据点会更加紧密。
    • 较小的perplexity值会关注数据的局部结构,产生更小范围的吸引力,数据点会更加松散。
    • 需要根据数据的特点和期望的可视化效果来选择合适的perplexity值。

不过据使用经验,perplexity参数的调整不能死记硬背,最好还是不断调,直到得出一个好的结果。

  • 9
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值