拓扑数据分析-Topological data analysis

一、拓扑概念

拓扑主要研究的对象为几何图形或空间结构,探究在连续改变形状后还能保持不变的一些性质。它只考虑物体间的位置关系而不考虑它们的形状和大小。简单的描述为:一些特殊的几何性质,在图形连续改变形状后还能继续保持不变。

二、拓扑数据分析

拓扑学研究的是一些特殊的几何性质,这些性质在图形连续改变形状后还能继续保持不变,称为“拓扑性质”。而在复杂的高维数据内部也存在着类似的结构性质,我们可以形象地称之为数据的形状(特征)。

拓扑数据分析(Topological data analysis, TDA),顾名思义,就是把拓扑学与数据分析结合的一种分析方法,用于深入研究大数据中潜藏的有价值的关系。

  • 相比于主成分分析、聚类分析这些常用的方法,TDA不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类。这种方法也因此曾在基因与癌症研究领域大显身手。

  • 和通常研究的成对关系相比,这种相互关系的形状之中可能潜藏了巨大的研究价值。要理解数据的形状,就必须求助于拓扑学。TDA所做的就是抽取这种形状并进行分析。
    在这里插入图片描述

三、拓扑分析步骤

在TDA数据分析中,mapper算法是必须的。具体的实现过程如下。

数据矩阵

  • 输入数据:输入数据可以是任何类型的数据,但是要满足一定的条件,即输入的数据必须要能够计算任何两数据之间的距离(这距离不局限于欧几里得距离,可以是用户定义的一些距离公式,目的就是要能够确定这个数据在总的输入数据中的一个大致“位置”)。
  • 输出:一个关于输入数据的拓扑图。

Mapper算法

The Algorithm
Given a dataset of points, the basic steps behind Mapper are as follows:

  1. Map to a lower-dimensional space using a filter function f f f, or lens. Common choices for the filter function include projection onto one or more axes via PCA or density-based methods.
  2. Construct a cover ( U i ) i ∈ I (U_i)_{i\in I} (Ui)iI of the projected space typically in the form of a set of overlapping intervals which have constant length.
  3. For each interval U_i cluster the points in the preimage f − 1 ( U i ) f^{-1}(U_i) f1(Ui) into sets C i , 1 , … , C i , k i C_{i,1},\ldots,C_{i,k_i} Ci,1,,Ci,ki.
  4. Construct the graph whose vertices are the cluster sets and an edge exists between two vertices if two clusters share some points in common.
  • 使用一个(或多个)filter 函数,将输入数据X经过计算得到一个(或多个)值。即f(X) = a ,a是一个实数。
  • 设置两个超参,分别是resolution(即intervals的间距大小)和overlap(重叠区间的大小)。(重要!!)
  • 在每个intervals里面进行局部聚类,可以使用任何聚类算法。将聚在一起的类归并到一个拓扑节点。每一个拓扑节点中包含了不同的数据点。
  • 基于第2步,resolution中设置的overlap(相邻intervals里面会有公共的数据点),将有overlap的两个拓扑节点,使用线连接起来。
    在这里插入图片描述

优点

  • 优点1:一般现有的算法,如果要对高维数据进行可视化,必然会有一个降维的过程,那么现有的算法在降维后对原始数据会有一些信息的损失(维数越高,越明显)。而mapper算法始终保留高维空间中数据的整体拓扑信息,在这个方面,它远胜于其他算法。
  • 优点2:能够发现一些更小的类,检测传统方法无法找到的集群和有趣的拓扑结构
  • 优点3:发现的特征具有鲁棒性,选择最能区分数据和模型可解释性的特征

基于python的实现

Nowadays there are a few python open source libraries implementing the main TDA tools, like GUDHI, scikit-tda and Giotto. For our test we chose to use one of the most recent: the Giotto library, which is scikit-learn compatible, oriented towards machine learning, fast-performing with C++ state-of-the-art implementations.

# Define filter function
filter_func = umap.UMAP(n_neighbors=5) 
# Define cover
cover = CubicalCover(kind='balanced', n_intervals=10, overlap_frac=0.2)
# Choose clustering algorithm 
clusterer = DBSCAN(eps=10)
# Initialise pipeline
pipe = make_mapper_pipeline(
    filter_func=filter_func,
    cover=cover,
    clusterer=clusterer,
    verbose=True,
    n_jobs=-1,
)
# Plot Mapper graph
fig = plot_static_mapper_graph(pipe, X, color_by_columns_dropdown=True, color_variable=y)
fig.show(config={'scrollZoom': True})
  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
拓扑图数据结构是有向无环图(DAG)的一种表示方法,它可以用来表示一些具有依赖关系的任务或事件。构建拓扑图数据结构的步骤如下: 1. 定义节点:首先需要定义节点,每个节点代表一个任务或事件。 2. 建立节点之间的依赖关系:在拓扑图中,每个节点都有一个入度和出度,入度表示有多少个节点指向该节点,出度表示该节点指向多少个节点。建立节点之间的依赖关系就是指在节点之间建立有向边,例如节点A指向节点B,表示节点B依赖于节点A。 3. 拓扑排序:对于一个DAG,可以通过拓扑排序来确定节点之间的执行顺序。拓扑排序的过程是,从入度为0的节点开始,依次将其加入拓扑序列中,并将其指向的节点的入度减1,直到所有节点都被加入拓扑序列中或者发现有环路存在。 下面是一个Python实现的拓扑图数据结构的例子: ```python class Node: def __init__(self, val): self.val = val self.in_degree = 0 self.out_degree = [] class TopologicalSort: def __init__(self, nodes): self.nodes = nodes def build_graph(self, edges): for edge in edges: start, end = edge start_node = self.nodes[start] end_node = self.nodes[end] start_node.out_degree.append(end_node) end_node.in_degree += 1 def sort(self): queue = [] for node in self.nodes: if node.in_degree == 0: queue.append(node) result = [] while queue: node = queue.pop(0) result.append(node.val) for out_node in node.out_degree: out_node.in_degree -= 1 if out_node.in_degree == 0: queue.append(out_node) if len(result) != len(self.nodes): return None else: return result ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值