TSNE实现降维及可视化

前言

  • 最近在看迁移学习需要观察迁移效果,需要把特征可视化来查看分布情况,所以需要用到降维可视化这个工具,所以在这里记录一下。
  • 方法挺简单的,阅读本文大概5分钟。

降维

  • 使用TSNE进行降维操作,该函数的输入是flatten之后的特征,即[batch,维度]。
  • 接口参数解释:
    sklearn.manifold.TSNE(n_components=2, perplexity=30.0, early_exaggeration=12.0, learning_rate=200.0, n_iter=1000, n_iter_without_progress=300, min_grad_norm=1e-07, metric=’euclidean’, init=’random’, verbose=0, random_state=None, method=’barnes_hut’, angle=0.5)
    参数:
    n_components:int,可选(默认值:2)嵌入式空间的维度。
    perplexity:浮点型,可选(默认:30)较大的数据集通常需要更大的perplexity。考虑选择一个介于5和50之间的值。由于t-SNE对这个参数非常不敏感,所以选择并不是非常重要。
    early_exaggeration:float,可选(默认值:4.0)这个参数的选择不是非常重要。
    learning_rate:float,可选(默认值:1000)学习率可以是一个关键参数。它应该在100到1000之间。如果在初始优化期间成本函数增加,则早期夸大因子或学习率可能太高。如果成本函数陷入局部最小的最小值,则学习速率有时会有所帮助。
    n_iter:int,可选(默认值:1000)优化的最大迭代次数。至少应该200。
    n_iter_without_progress:int,可选(默认值:300,必须是50倍数)在我们中止优化之前,没有进展的最大迭代次数。
    0.17新版​​功能:参数n_iter_without_progress控制停止条件。
    min_grad_norm:float,可选(默认值:1E-7)如果梯度范数低于此阈值,则优化将被中止。
    metric:字符串或可迭代的,可选,计算特征数组中实例之间的距离时使用的度量。如果度量标准是字符串,则它必须是scipy.spatial.distance.pdist为其度量标准参数所允许的选项之一,或者是成对列出的度量标准.PAIRWISE_DISTANCE_FUNCTIONS。如果度量是“预先计算的”,则X被假定为距离矩阵。或者,如果度量标准是可调用函数,则会在每对实例(行)上调用它,并记录结果值。可调用应该从X中获取两个数组作为输入,并返回一个表示它们之间距离的值。默认值是“euclidean”,它被解释为欧氏距离的平方。
    init:字符串,可选(默认值:“random”)嵌入的初始化。可能的选项是“随机”和“pca”。 PCA初始化不能用于预先计算的距离,并且通常比随机初始化更全局稳定。
    random_state:int或RandomState实例或None(默认)
    伪随机数发生器种子控制。如果没有,请使用numpy.random单例。请注意,不同的初始化可能会导致成本函数的不同局部最小值。
    method:字符串(默认:‘barnes_hut’)
    默认情况下,梯度计算算法使用在O(NlogN)时间内运行的Barnes-Hut近似值。 method ='exact’将运行在O(N ^ 2)时间内较慢但精确的算法上。当最近邻的误差需要好于3%时,应该使用精确的算法。但是,确切的方法无法扩展到数百万个示例。0.17新版​​功能:通过Barnes-Hut近似优化方法。
    angle:float(默认值:0.5)
    仅当method ='barnes_hut’时才使用这是Barnes-Hut T-SNE的速度和准确性之间的折衷。 ‘angle’是从一个点测量的远端节点的角度大小(在[3]中称为theta)。如果此大小低于’角度’,则将其用作其中包含的所有点的汇总节点。该方法对0.2-0.8范围内该参数的变化不太敏感。小于0.2的角度会迅速增加计算时间和角度,因此0.8会快速增加误差。
    在这里插入图片描述
  • 这部分不用了解太多,知道几个主要的参数如n_components、n_iter、init等以及主要的方法fit_transform就好了。

可视化

  • 这一部分自己构造函数。
  • 二维可视化:
def plot_embedding_2d(X, y, d, title=None):
    """Plot an embedding X with the class label y colored by the domain d."""
    x_min, x_max = np.min(X, 0), np.max(X, 0)
    X = (X - x_min) / (x_max - x_min)

    # Plot colors numbers
    plt.figure(figsize=(10,10))
    ax = plt.subplot(111)
    for i in range(X.shape[0]):
        # plot colored number
        plt.text(X[i, 0], X[i, 1], str(y[i]),
                 color=plt.cm.bwr(d[i] / 1.),
                 fontdict={'weight': 'bold', 'size': 9})

    plt.xticks([]), plt.yticks([])
    if title is not None:
        plt.title(title)

上面的函数大家自己可以修改,就画个图而已,降维后的数据都给你了。因为我是迁移学习,所以添加了每条数据的域类别d。另外,大家根据自己的分类类别设置plt.cm.Set或者bwr。

  • 三维可视化:
def plot_embedding_3d(X, title=None):
    #坐标缩放到[0,1]区间
    x_min, x_max = np.min(X,axis=0), np.max(X,axis=0)
    X = (X - x_min) / (x_max - x_min)
    #降维后的坐标为(X[i, 0], X[i, 1],X[i,2]),在该位置画出对应的digits
    fig = plt.figure()
    ax = fig.add_subplot(1, 1, 1, projection='3d')
    for i in range(X.shape[0]):
        ax.text(X[i, 0], X[i, 1], X[i,2],str(digits.target[i]),
                 color=plt.cm.Set1(y[i] / 10.),
                 fontdict={'weight': 'bold', 'size': 9})
    if title is not None:
        plt.title(title)

举例:

  • 代码:
from sklearn import datasets
from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt
digits = datasets.load_digits(n_class=5)
X = digits.data
y = digits.target
print(X.shape) # 901,64

def plot_embedding_2d(X, y, title=None):
    """Plot an embedding X with the class label y colored by the domain d."""
    x_min, x_max = np.min(X, 0), np.max(X, 0)
    X = (X - x_min) / (x_max - x_min)

    # Plot colors numbers
    plt.figure(figsize=(10,10))
    ax = plt.subplot(111)
    for i in range(X.shape[0]):
        # plot colored number
        plt.text(X[i, 0], X[i, 1], str(y[i]),
                 color=plt.cm.Set3(y[i] / 10.),
                 fontdict={'weight': 'bold', 'size': 9})

    plt.xticks([]), plt.yticks([])
    if title is not None:
        plt.title(title)
    plt.show()

def plot_embedding_3d(X,y, title=None):
    #坐标缩放到[0,1]区间
    x_min, x_max = np.min(X,axis=0), np.max(X,axis=0)
    X = (X - x_min) / (x_max - x_min)
    #降维后的坐标为(X[i, 0], X[i, 1],X[i,2]),在该位置画出对应的digits
    fig = plt.figure()
    #ax = fig.add_subplot(1, 1, 1, projection='3d')
    ax = Axes3D(fig)
    for i in range(X.shape[0]):
        ax.text(X[i, 0], X[i, 1], X[i,2],str(digits.target[i]),
                 color=plt.cm.Set3(y[i] / 10.),
                 fontdict={'weight': 'bold', 'size': 9})
    if title is not None:
        plt.title(title)
    plt.show()
        
print("Computing t-SNE embedding")
tsne2d = TSNE(n_components=2, init='pca', random_state=0)
tsne3d = TSNE(n_components=3, init='pca', random_state=0)

X_tsne_2d = tsne2d.fit_transform(X)
X_tsne_3d = tsne3d.fit_transform(X)
plot_embedding_2d(X_tsne_2d[:,0:2],y,"t-SNE 2D")
plot_embedding_3d(X_tsne_3d[:,0:3],y,"t-SNE 3D")

效果:
在这里插入图片描述

在这里插入图片描述

<think>好的,我需要帮助用户了解t-SNE可视化实现方法和案例。首先,我需要回忆t-SNE的基本概念,确保自己理解正确。根据用户提供的引用内容,t-SNE是由Laurens van der Maaten和Geoffrey Hinton在2008年提出的非线性技术,适合高数据可视化,特别是保留局部结构[^3]。接下来,用户可能需要具体的步骤和代码示例,所以我要整理出一个清晰的实现流程。 首先,我应该考虑使用Python的sklearn库中的TSNE类,因为这是常用的实现方式。需要确保用户安装必要的库,如scikit-learn和matplotlib。然后,数据预处理是关键步骤,包括加载数据(比如MNIST数据集)、标准化处理。接着是配置t-SNE参数,如n_components设置为2,因为通常是二可视化,调整perplexity和learning_rate等参数,这些参数会影响效果。 然后,应用fit_transform方法进行,得到二数据。之后,用matplotlib绘制散点图,可能需要根据数据标签着色以显示不同类别。在代码示例中,需要注意正确导入库、处理数据、拟合模型和可视化步骤。同时,要提到参数调整的重要性,比如perplexity过高或过低可能导致的问题,以及迭代次数n_iter的影响。 用户还可能关心结果解读,比如点之间的距离表示相似性,以及t-SNE的局限性,如计算成本高和不能处理新样本的问题,需要引用提供的资料[^1]。此外,可以提及优化方法,如使用Barnes-Hut近似加速计算,或结合其他技术。 最后,生成相关问题时要围绕t-SNE的实现细节、参数调优、与其他方法的比较以及应用场景展开。需要确保问题覆盖用户可能进一步探索的方向,帮助其深入理解。整个过程中要注意使用正确的中文表达,避免术语错误,并按照要求使用LaTeX格式的数学公式,比如在解释t-SNE的目标函数时使用$$...$$,但根据用户提供的示例,可能不需要复杂的公式,所以可能暂时不涉及,除非必要。 总结步骤:安装库、数据准备、模型配置、可视化、结果分析。每个步骤给出代码和解释,同时引用相关资料说明优缺点和注意事项。</think>### t-SNE可视化实现方法及示例 #### 1. 实现步骤 1. **安装依赖库** 使用Python的`scikit-learn`和`matplotlib`库: ```bash pip install scikit-learn matplotlib ``` 2. **数据准备** 以经典的MNIST手写数字数据集为例: ```python from sklearn import datasets digits = datasets.load_digits() X = digits.data # 高数据(64) y = digits.target # 标签 ``` 3. **配置t-SNE参数** ```python from sklearn.manifold import TSNE tsne = TSNE( n_components=2, # 到2 perplexity=30, # 控制局部与全局结构的平衡,通常取5~50 learning_rate=200, random_state=42 ) X_tsne = tsne.fit_transform(X) ``` 4. **可视化结果** ```python import matplotlib.pyplot as plt plt.figure(figsize=(8, 6)) plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='tab10', alpha=0.6) plt.colorbar() plt.title("t-SNE Visualization of MNIST Dataset") plt.show() ``` ![示例图:MNIST的t-SNE结果](https://via.placeholder.com/400x300/EFEFEF/000?text=t-SNE+Visualization) *每个点的颜色对应手写数字的标签,相似样本在二空间中更接近[^2]。* --- #### 2. 关键参数说明 - **`perplexity`**:影响局部结构的敏感度,值过小会导致局部簇分裂,过大可能忽略细节。 - **`learning_rate`**:通常取100~1000,过高可能导致散点发散,过低会收敛缓慢。 - **`n_iter`**:迭代次数(默认1000),复杂数据集需增加迭代次数。 --- #### 3. 局限性及优化 - **局限性**:计算复杂度高($O(n^2)$),无法直接处理新样本。 - **优化方法**: - 使用`Barnes-Hut`近似算法(设置`method='barnes_hut'`),将复杂度低至$O(n \log n)$。 - 先通过PCA(如至50),再应用t-SNE,提升效率。 ---
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CtrlZ1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值