机器学习算法：UMAP 深入理解（通俗易懂！）

最新推荐文章于 2024-08-20 13:54:04 发布

CXY小嵩

最新推荐文章于 2024-08-20 13:54:04 发布

阅读量4.1k

点赞数 1

文章标签：人工智能计算机视觉深度学习神经网络算法 Powered by 金山文档

本文链接：https://blog.csdn.net/HB_id01289/article/details/128919417

版权

UMAP是一种新型的降维算法，对比t-SNE，它具有更快的计算速度和更好的全局结构保留。UMAP通过构建高维图并在低维空间中优化布局，实现对大型高维数据集的可视化。主要参数n_neighbors和min_dist控制局部和全局结构的平衡。UMAP在保留集群关系方面优于t-SNE，但在某些特定情况下可能无法正确处理嵌套集群。理解UMAP的工作原理和参数调整对数据科学家来说至关重要。

摘要由CSDN通过智能技术生成

UMAP 是 McInnes 等人开发的新算法。与t-SNE相比，它具有许多优势，最显着的是提高了计算速度并更好地保留了数据的全局结构。降维是机器学习从业者可视化和理解大型高维数据集的常用方法。最广泛使用的可视化技术之一是 t-SNE，但它的性能受到数据集规模的影响，并且正确使用它可能需要一定学习成本。

AI配图魔改

UMAP projection

那么，UMAP带来了什么？最重要的是，UMAP速度很快，在数据集大小和维度方面都可以很好地扩展。例如，UMAP可以在不到 3 分钟的时间内降维 784 维、70,000 点的 MNIST 数据集，而 scikit-learn 的t-SNE需要 45 分钟。此外，UMAP倾向于更好地保留数据的全局结构。这可以归因于UMAP强大的理论基础，使得算法能够更好地在强调局部结构与全局结构之间取得平衡。

1. UMAP vs t-SNE

在深入探讨UMAP背后的理论之前，让我们看一下它在现实世界的高维数据上的表现。下面的图片显示了使用UMAP和t-SNE将 784 维 Fashion MNIST 数据集的子集降维到 3 维上的情况。请注意每个不同类别的聚类程度（局部结构），而相似的类别（例如凉鞋、运动鞋和踝靴）倾向于聚集（全局结构）。