为什么 t-SNE 算法使用 t 分布而不是 SNE 中使用的高斯分布

降维是数据分析和可视化中的一个关键技术,它允许我们在保留数据集基本结构的同时简化复杂的高维数据。

两个常用的降维算法是随机邻域嵌入(SNE)及其改进版本 t 分布随机邻域嵌入(t-SNE)。这两个算法的一个关键区别在于它们选择的概率分布:SNE 使用高斯分布,而 t-SNE 使用学生 t 分布。那么,为什么 t-SNE 会做出这个改变呢?让我们详细探讨一下。

SNE 的问题

SNE 旨在通过最小化高维和低维条件概率之间的差异来减少数据的维度。然而,SNE 的一个显著问题是它通常会产生分离不清的簇。这一问题可以归因于低维空间中使用高斯分布。

SNE 中的高斯分布

在 SNE 中,低维条件分布使用高斯分布来建模。虽然高斯分布在许多场景中都很有效,但在降维中存在一些局限性:

  • 尾部权重有限:高斯分布的尾部较轻,这意味着随着距离增加,概率密度迅速下降。这一特性会导致远距离点的概率非常低,从而导致低维空间中簇的分离效果不佳。

下图展示了这个问题,其中 SNE 产生的簇分离不清。

解决方案:t-SNE 中的 t 分布

为了应对 SNE 中的簇分离问题,t-SNE 的作者提出使用一种不同的概率分布,该分布在远距离点上保持与高斯分布相同的条件概率值,但在更大的欧几里得距离上实现这一点。学生 t 分布,特别是自由度为一的情况(等同于柯西分布),被认为是完美的选择。

t 分布的优势

在降维背景下,学生 t 分布相对于高斯分布有几个优势:

  1. 尾部较重:t 分布的尾部比高斯分布重。这意味着低维空间中远距离点的概率较高,从而导致更好的簇分离。例如,如果高斯分布在距离为 10 时的概率密度为 0.1,t 分布可以在更大的距离上具有相同的概率密度。

  2. 改进的簇分离:通过使用 t 分布,t-SNE 能够产生分离良好的簇,如下图右侧所示。这种增强的分离有助于更好的数据可视化和解释。

  3. 计算效率:在学生 t 分布下评估一个点的密度比在高斯分布下更快。这一效率在处理大数据集时尤为有利。

结论

t-SNE 算法通过在低维空间中将高斯分布替换为学生 t 分布来改进 SNE。这一改变解决了 SNE 中簇分离不清的问题,从而产生了更清晰、更易解释的簇。此外,t 分布还具有计算优势,使 t-SNE 成为降维和数据可视化的强大高效工具。

通过理解这一分布选择背后的原理,我们可以更好地理解 t-SNE 的优势及其在各种数据分析领域中的应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值