机器学习笔记 - 什么是UMAP？

坐望云起

已于 2022-04-25 12:17:16 修改

阅读量2.2w

点赞数 4

分类专栏：深度学习从入门到精通文章标签： UMAP 降维机器学习非线性降维拓扑数据

于 2022-04-25 12:09:06 首次发布

本文链接：https://blog.csdn.net/bashendixie5/article/details/124400062

版权

768 篇文章 190 订阅 ¥99.90 ¥299.90

订阅专栏

UMAP是一种基于流形学习和拓扑数据分析的非线性降维算法，相较于t-SNE，它更快且能更好地保留全局结构。本文介绍了UMAP的原理、安装方法和使用示例，包括如何配置参数、绘图功能以及使用UMAP处理MNIST和Fashion MNIST数据集。

摘要由CSDN通过智能技术生成

1、UMAP概述

统一流形逼近和投影 (UMAP) 是一种降维技术，可用于类似于 t-SNE 的可视化，但也可用于一般的非线性降维。UMAP 是一种基于流形学习技术和拓扑数据分析思想的降维算法。它为处理流形学习和降维提供了一个非常通用的框架，但也可以提供具体的具体实现。

该算法基于对数据的三个假设：

数据均匀分布在黎曼流形上；
黎曼度量是局部常数（或可以近似）；
歧管是本地连接的。

根据这些假设，可以用模糊拓扑结构对流形进行建模。通过搜索具有最接近的等效模糊拓扑结构的数据的低维投影来找到嵌入。
UMAP与 t-SNE 相比，它提供了许多优势，最显着的是提高了速度并更好地保存了数据的全局结构。

UMAP 的核心与 t-SNE 非常相似——两者都使用图形布局算法在低维空间中排列数据。在最简单的意义上，UMAP 构建数据的高维图表示，然后优化低维图以使其在结构上尽可能相似。虽然 UMAP 用于构建高维图的数学是先进的，但它们背后的直觉却非常简单。

为了构建初始的高维图，UMAP 构建了一个叫做“模糊单纯复形”的东西。这实际上只是加权图的表示，边权重表示两个点连接的可能性。为了确定连通性，UMAP 从每个点向外扩展一个半径，当这些半径重叠时连接点。选择这个半径很关键——选择太小会导致小而孤立的集群，而选择太

了解本专栏

关注

专栏目录