t-SNE()函数参数解释

最新推荐文章于 2025-04-04 13:19:37 发布

陈杉菜

最新推荐文章于 2025-04-04 13:19:37 发布

阅读量2.3w

点赞数 20

分类专栏： python 文章标签：降维参数 tsne tsne参数解释

本文链接：https://blog.csdn.net/qq_44702847/article/details/90044884

版权

python 专栏收录该内容

30 篇文章

订阅专栏

因为百度了很久没有找的对应的资料，可能是打开方式不对吧，
所以屯给自己看看
顺便分享ohhhhhh
并不全面

TSNE() 参数解释

TSNE即t-distributed Stochastic Neighbor Embedding.使用方法：

    tsne = TSNE(perplexity=30, n_components=2, init='pca', n_iter=5000); plot_only = 500 #只画前500个点
                #对中间层输出进行tsne降维
                low_dim_embs = tsne.fit_transform(flat_representation[:plot_only, :])
                #数据经过tsne以后是二维的  
                #画图传递数据二维的，和真实类别

sklearn.manifold.TSNE函数定义如下：
class sklearn.manifold.TSNE(n_components=2, perplexity=30.0, early_exaggeration=4.0, learning_rate=1000.0, n_iter=1000, n_iter_without_progress=30, min_grad_norm=1e-07, metric=‘euclidean’, init=‘random’,

verbose=0, random_state=None, method=‘barnes_hut’, angle=0.5)
参数：
n_components：int，可选（默认值：2）嵌入式空间的维度。

perplexity：浮点型，可选（默认：30）较大的数据集通常需要更大的perplexity。考虑选择一个介于5和50之间的值。由于t-SNE对这个参数非常不敏感，所以选择并不是非常重要。

early_exaggeration：float，可选（默认值：4.0）这个参数的选择不是非常重要。

learning_rate：float，可选（默认值：1000）学习率可以是一个关键参数。它应该在100到1000之间。如果在初始优化期间成本函数增加，则早期夸大因子或学习率可能太高。如果成本函数陷入局部最小的最小值，则学习速率有时会有所帮助。

n_iter：int，可选（默认值：1000）优化的最大迭代次数。至少应该200。

n_iter_without_progress：int，可选（默认值：30）在我们中止优化之前，没有进展的最大迭代次数。

0.17新版功能：参数n_iter_without_progress控制停止条件。

min_grad_norm：float，可选（默认值：1E-7）如果梯度范数低于此阈值，则优化将被中止。

metric：字符串或可迭代的，可选，计算特征数组中实例之间的距离时使用的度量。如果度量标准是字符串，则它必须是scipy.spatial.distance.pdist为其度量标准参数所允许的选项之一，或者是成对列出的度量标准.PAIRWISE_DISTANCE_FUNCTIONS。如果度量是“预先计算的”，则X被假定为距离矩阵。或者，如果度量标准是可调用函数，则会在每对实例（行）上调用它，并记录结果值。可调用应该从X中获取两个数组作为输入，并返回一个表示它们之间距离的值。默认值是“euclidean”，它被解释为欧氏距离的平方。

init：字符串，可选（默认值：“random”）嵌入的初始化。可能的选项是“随机”和“pca”。 PCA初始化不能用于预先计算的距离，并且通常比随机初始化更全局稳定。

random_state：int或RandomState实例或None（默认）
伪随机数发生器种子控制。如果没有，请使用numpy.random单例。请注意，不同的初始化可能会导致成本函数的不同局部最小值。

method：字符串（默认：‘barnes_hut’）
默认情况下，梯度计算算法使用在O（NlogN）时间内运行的Barnes-Hut近似值。 method ='exact’将运行在O（N ^ 2）时间内较慢但精确的算法上。当最近邻的误差需要好于3％时，应该使用精确的算法。但是，确切的方法无法扩展到数百万个示例。0.17新版功能：通过Barnes-Hut近似优化方法。

angle：float（默认值：0.5）
仅当method ='barnes_hut’时才使用这是Barnes-Hut T-SNE的速度和准确性之间的折衷。 ‘angle’是从一个点测量的远端节点的角度大小（在[3]中称为theta）。如果此大小低于’角度’，则将其用作其中包含的所有点的汇总节点。该方法对0.2-0.8范围内该参数的变化不太敏感。小于0.2的角度会迅速增加计算时间和角度，因此0.8会快速增加误差。