持续同调文章阅读(二)
原文:Elizabeth Munch.A User’s Guide to Topological Data Analysis. Journal of Learning Analytics, 4(2), 47–61.
这篇文章是拓扑数据分析(TDA)的基础之作,主要介绍了persistence diagram和mapper graph,从行文风格可以见到确实是一份“指南”。我只整理部分感兴趣的内容。
Section1: Persistent Homology
1.1 Face: 一个单形的面(
f
a
c
e
face
face)是定义在它顶点集子集的单形。
1.2 例: 一个2-单形(即由三个顶点构成的三角形)的面是三个顶点、三条边和三角形自身。
1.3 Vietoris-Rips复形: 给定数据集
A
A
A,构建Vietoris-Rips complex
S
S
S方式如下:顶点集取成数据集本身。参数
t
t
t增大时,对于
A
A
A中两个点
x
,
y
x,y
x,y,如果
d
(
x
,
y
)
≤
t
d(x,y)\leq t
d(x,y)≤t,我们将边
x
y
xy
xy包含进复形中。对更高维单形(如顶点是
x
,
y
,
z
x,y,z
x,y,z 的3维单形
B
B
B),仅当
x
,
y
,
z
x,y,z
x,y,z任意两点间距离都不超过
t
t
t时,我们才将
B
B
B包含进复形
S
S
S。
1.4 对于点云数据,0维同调度量
c
l
u
s
t
e
r
s
clusters
clusters,1维同调度量
l
o
o
p
s
loops
loops,2维同调度量
v
o
i
d
s
(
a
i
r
b
u
b
b
l
e
s
)
voids (air \,bubbles)
voids(airbubbles)。
1.5 不同拓扑空间的Betti number: Betti numbers for a point, a circle, a sphere, a torus (donut), and a Klein bottle are as follows.
1.6(噪声点在点云数据形成持续图表时是可能出现的) 文章说道:In many applications, the existence of a few points far from the diagonal relative to the rest of the points in the persistence diagram can be taken to mean that these classes come from the inherent structure of the data, while the rest of the points are artifacts of noise.
1.7 若两组点云空间上的形状相近,则持续图表相近,例如下面例子。
1.8 度量两个持续图表的差异常用bottleneck and Wasserstein distances.
1.9 这部分最后作者还介绍了Further Reading 和 Available Software,mapper那一部分也是。
Section2: Mapper
Mapper的核心思想是用图(graph)来表示数据集的1维特征,主要步骤是:选择filter function
→
\rightarrow
→ 给出数据集的一个覆盖
→
\rightarrow
→ 在每个覆盖进行聚类,得到一些新的结点(node)
→
\rightarrow
→ 根据overlap确定结点之间是否有边相连
→
\rightarrow
→ 后续分析。下面是一个例子:
这里filter function是把每个数据点映射到它的y坐标,且选取原数据集
S
S
S的三个子集
S
1
,
S
2
,
S
3
S_1,S_2,S_3
S1,S2,S3(不妨按图中的顺序,从上到下)构成的集合成为
S
S
S的覆盖。最右边的图中有四个结点,以中间左侧结点为例:它代表了一些数据点集
A
⊂
S
2
A\subset S_2
A⊂S2,由于overlap的缘故,这个数据点集
A
A
A中有一些点既属于
S
1
S_1
S1,又属于
S
2
S_2
S2,所以这个结点和上面的黄色结点有边相连;同时这个数据点集
A
A
A中有一些点既属于
S
2
S_2
S2,又属于
S
3
S_3
S3,所以这个结点和下面的紫色结点有边相连。