一.
拓扑数据分析(TDA)按定义,TDA是以持久同调(persistent homology)为基础,对数据的拓扑学特征(topological features)进行分析的方法。其一般性目的是从高维数据中提取有效信息。TDA主要研究点云的几何相似性,分析点云中存在的高维结构(洞),根据代数拓扑学中的同调的方法,用算法完成在n维空间中分析孔洞。持续同调是为了在存在噪音的数据中进行拓扑数据分析。
二
1. 贝蒂数与孔洞
首先要引入贝蒂数的概念,贝蒂数是在拓扑空间内描述连通性的一种方式。用最简单的术语来说,第k个贝蒂数βk表示拓扑空间中k维孔洞的数量,例如:βo为连通元素的个数,β1为平面孔数(一维洞);β2为二维空洞(二维孔洞)的个数。
目前我对孔洞的理解:一维孔洞的数量(β1)实际是指二维图形所在的平面中孔洞的数量,二维孔洞的数量实际是指三维图形在三维空间中孔洞的数量(在三维空间中分析,不可以二维平面的视角分析)。我猜测,n维孔洞的数量(βn)是指n+1维空间中n+1维图形的孔洞数量,并且不能降维分析数量。根据定义,洞是点云中存在的高维结构。所以在分析n维孔洞的数量时,是需要以n+1维的视角去找该结构的,我的猜测具有一定合理性。
2. 单纯形
单纯形是代数拓扑中最基本的概念。单纯形是三角形和四面体的一种泛化,一个k维单纯形是指包含(k+1)个节点的凸多面体(凸多面体定义:整个多面体都在其任何一个面所在平面同侧的多面体,即凸多面体的任何一个面延展都不会通过它的内部)。
举例:1维单纯形就是线段;2维单纯形就是三角形;三维单纯形就是四面体。
又:3维单纯形,是将2维单纯形的三条边都换成2维单纯形并无缝粘合起来;4维单纯形,是将3维单纯形的三个面都换成3维单纯形并无缝粘合起来;5维单纯形,是将4维单纯形的三个"面"都换成4维单纯形并无缝粘合起来;
对孔洞和单纯形对维度的涉及进行总结:n维孔洞要升一维(n+1)去找,n维单纯形就是常理上的n维图形。n+1维图形是由n维图形围成的,所以说n维孔洞是由n维单纯形围成的洞(个人理解,和网络上的定义有出入,待查!)
3. VR复形
先设置一个 ϵ ,ϵ 从0开始逐渐增大,如果增大过程中 ϵ 大于点云中两个点之间的距离,则将两个点连线,这样形成的复形称为VR复形。
如上图,相互覆盖的点就能构成单纯形,连接起来即可。设置的半径不断变化,得到的不同维度的单纯形的数量也不断变化。
三.
持续同调的方法,记录下了拓扑学特征持续的“时间”(以半径为量度)
条的长度显示了各个特征的生命周期,即它们的持续性。
总结: 拓扑数据分析通过分析点云的相似性,分析点云中存在的有效信息,来从高维数据中获得有效信息。持续同调的方法可以从有噪音的数据中完成这一任务。我再次做出猜测:点云相似性的指标就是贝蒂数,有效信息也是贝蒂数或者贝蒂数存在的时间,高维数据中的有效信息是指数据的拓扑学归类或者说数据的特征(以进行归类和特征分析)。需进一步学习来解决猜测中提出的问题。
本文存在引用和摘抄,仅作为自己的学习笔记