【20220605】文献翻译:高维数据动态可视化研究综述

A Review of the State-of-the-Art on Tours for Dynamic Visualization of High-dimensional Data


Visualization of High-dimensional Data)

Lee, Stuart, et al. “A Review of the State-of-the-Art on Tours for Dynamic Visualization of High-dimensional Data.” arXiv preprint arXiv:2104.08016 (2021).

本文讨论了一种称为tour的高维可视化技术,它可以用于查看三维以上的数据。我们回顾了该技术背后的理论和历史,以及在科学和机器学习中发现的现代软件开发和应用。

在这里插入图片描述

图1:说明了本文中“高维”和“线性投影”的含义。以线框图的形式,由一维到5D的维度递增的立方体序列可以看出,当维度增加1时,立方体会翻倍。

在这里插入图片描述

图2:当用户在左侧面板上刷数据时,该区域内的点以橙色突出显示。右边的视图通过强调相应的点来回应。摘自Cook等人,2007年图2.12。

在这里插入图片描述

图3:用t-SNE (A)和tour (B)从10 d非线性降维的结构感知比较。在t-SNE视图中,有6个簇,但簇之间的相对距离变化很大。这可以从所示的旅游预测样本中看出。这两个绿色的星团(几乎)是球形的,与橙色星团的距离非常远。其中三个橙色星团彼此非常接近(仅在B.1中可见),所有橙色星团都是椭圆形的。该指南提供了高维空间中集群的更准确的呈现,并补充了从降维中学到的内容。

Dynamic visualization of high-dimensional data

降维(DR)是高维数据分析中的一种标准方法。除了降低噪声和促进下游计算分析,DR方法被广泛用于在二维或三维可视化数据。事实上,已经开发了许多DR方法来生成高维数据的可视化信息。目前比较流行的数据可视化DR方法包括线性主成分分析(PCA)、非线性t分布随机邻居嵌入(t-SNE)[1]和统一流形逼近与投影(UMAP)[2]。已经开发了许多其他DR方法来解决常用的t-SNE和UMAP方法的缺点[3-5]。可视化的DR方法已经在广泛的不同学科中找到了特定的用途。一些例子包括在单细胞生物学中验证细胞类型身份[6,7],从深度学习模型探索输入嵌入,探索人类基因组[8]的地理模式,以及解剖恒星物体[9]的化学丰度。尽管DR方法在高维数据可视化方面很受欢迎,但这些方法在低维可视化质量上存在失真和异质性[6,10-14]。因此,天真地使用DR方法来验证、确认或告知研究结果和方向很容易由于这些歪曲而被误解。例如,在单细胞生物学领域,通常使用t-SNE或UMAP可视化来确认[6]簇的细胞类型身份,整合不同的单细胞数据集[15 - 17],并使用RNA速度测量来计算细胞轨迹[18,19]。对于前面提到的每一个用例,观测者变化之间的距离和DR可视化质量的异质性都存在扭曲,并可能影响最终的解释[10,13,20 - 22]。一般来说,通过这些扭曲,DR可视化可能会导致簇的验证不正确(即低簇或过簇),人工检测或缺乏对簇之间桥接连接的检测,以及人工存在沿元数据轴的观测顺序或丢失。

降维法(DR)通常用于将高维数据投影到低维数据中进行可视化,从而产生新的见解和假设。然而,DR算法必然会在可视化中引入失真,并且不能完全代表数据中的所有关系。因此,需要有评估DR可视化可靠性的方法。在这里,我们提出了DynamicViz,这是一个生成动态可视化的框架,它捕获了DR可视化对数据扰动的敏感性。DynamicVic可以应用于所有常用的DR方法。我们展示了动态可视化在诊断静态可视化的常见解释缺陷和扩展现有单细胞分析方面的效用。我们引入方差分数来量化这些可视化中观测结果的动态可变性。方差分数表征了数据的自然可变性,可以用来优化DR算法的实现。我们已经免费提供DynamicViz来帮助评估DR可视化。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在高维数据可视化中,支持向量机(SVM)在处理高维数据方面表现出色。 支持向量机是一种基于机器学习的分类算法,它通过找到最佳的超平面来实现数据的分类。在处理高维数据时,SVM可以发现不同属性之间的关系,从而从数据中提取出有用的信息。 在MATLAB中,我们可以使用SVM工具箱来实现高维数据可视化。首先,我们需要将数据加载到MATLAB环境中,并将其准备为适合SVM训练的格式。接下来,我们可以使用SVM工具箱的函数,如fitcsvm或fitcecoc,来训练SVM模型。这些函数允许我们选择不同的SVM内核类型和参数配置,以便更好地拟合数据。 一旦我们训练好了SVM模型,我们可以使用plot函数将高维数据可视化。通过在二维空间中绘制数据点,我们可以观察它们在不同类别之间的分布。此外,我们还可以用不同的颜色或标记来表示数据点的类别,以增加可视化信息。 在处理高维数据时,SVM在可视化方面的优点之一是它可以通过使用核技巧将数据高维空间映射到低维空间。这样可以降低绘图的复杂性,并且可以更好地展示分类结果。 综上所述,SVM在高维数据可视化中具有较强的优势,并且在MATLAB环境中可以方便地实现。通过使用SVM工具箱提供的函数和技术,我们可以有效地展示高维数据的分类结果和特性,从而更好地理解数据。 ### 回答2: SVM(支持向量机)是一种常用的机器学习算法,用于分类和回归问题。它在高维数据可视化中也有一定的应用。 在Matlab中,可以使用SVM分类器训练模型,并使用其特性来可视化高维数据。首先,将高维数据输入到SVM分类器中,并将其转换为一个可以进行可视化的二维或三维数据集。可以使用主成分分析(PCA)或线性判别分析(LDA)等降维技术,将高维数据映射到二维或三维空间中。 接下来,可以使用Matlab中的绘图函数(如scatter、plot3等)将转换后的数据集进行可视化。如果降维后的数据仍然是线性可分的,则可以绘制二维或三维的散点图,并使用不同的样本类别标记颜色或形状来区分不同的类别。如果数据在降维后变得不可分或重叠,可以使用决策边界或等高线来表示SVM模型的分类结果。 此外,还可以通过绘制支持向量和超平面来显示SVM模型的特征。支持向量是离超平面最近的数据点,可以通过绘制它们来显示SVM模型边界的位置。超平面是SVM分类器决策边界的几何概念,可以用于将不同类别的数据分隔开。通过绘制支持向量和超平面,可以更直观地观察到SVM模型对高维数据的分类效果。 综上所述,SVM算法可以通过Matlab中的可视化函数,将高维数据可视化到二维或三维空间中。这样做有助于我们更好地理解和分析数据,并对SVM模型的分类结果进行评估。 ### 回答3: 在使用SVM(支持向量机)进行高维数据可视化方面,MATLAB提供了一些功能和工具,可以帮助我们将高维数据可视化到二维或三维空间中以便于观察和分析。 首先,MATLAB中的SVM工具箱提供了一些函数和方法来实现分类和回归问题的SVM模型构建。我们可以使用svmtrain函数来训练SVM分类器,并使用svmclassify函数来进行分类预测。这可以帮助我们在线性或非线性问题中对数据进行分类。 一旦我们得到了SVM分类器,我们可以使用svmplot函数将高维数据可视化到二维空间中。该函数可以根据SVM模型的超平面和支持向量来绘制决策边界和支持向量。这样可以帮助我们直观地了解分类结果,并判断SVM模型的性能。 此外,MATLAB还提供了一些其他的图形函数和工具,可以帮助我们进一步分析和可视化高维数据。例如,scatter函数可以用来绘制散点图,可以用不同的颜色或符号代表不同的类别。surf函数可以用来绘制三维曲面图,可以将高维数据映射到三维空间中进行可视化。 另外,我们还可以使用降维方法如主成分分析(PCA)来将高维数据降到二维或三维空间中进行可视化。MATLAB中提供了pca函数来实现PCA分析,可以通过计算数据的主成分来减少维度。然后可以使用散点图或曲面图等方法进行可视化。 综上所述,MATLAB提供了一些功能和工具,可以帮助我们进行SVM高维数据可视化。通过利用SVM的决策边界和支持向量,以及其他图形函数和降维方法,我们可以直观地观察和分析高维数据

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值