流形学习算法的理论

当今时代,信息过量导致一个现象:数据爆炸但知识贫乏。由此引发了一个新的研究方向:基于数据库的知识发现(简称KDD)以及相应的数据挖掘(Data Mining)理论和技术的研究。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。
数据挖掘的一个非常重要的工具和方法是数据降维。数据降维的目的是找出高维数据中的所隐藏的低维结构。现实生活中的许多现象可以用高维数据来描述。比如天气状况,随着气象学的发展,现在用来描述气象特阵的指标非常多,例如温度、湿度、气压、风力、降雨量、辐射强度等,将这些用多个变量描述现象的数据,抽象出来就是高维数据。高维数据提高了有关客观现象的极其丰富、详细的信息。但是,数据维数的大幅度提高给随后的数据处理工作带来了前所未有的困难,即如何从大量的数据特征中找出其本质的或用户有兴趣的特征。这就需要对数据集进行降维处理,并且在降维后能保持数据集原有的一些本质特征不变。

  1. 图像分类系统。假设有一组数字图像,这组图像共有N张图像,每张图像都是m*n大小的灰度图。可以对每张图像按行或列堆叠转化成一个列向量,而列向量的维数为m*n,每个分量的大小表示图像的像素点的像素值的大小。对于m=n=256的图像,最后转化为65536维的向量。对于如此高的维数,常用的分类方法都无法有效的工作,因此,我们需要降低维数,而且在降低维数的同时,能保持图像之间所隐藏的本质关系,比如图像的拍摄角度、光线亮度等等,然后再进行分类识别。
  2. 文本分类系统。文本分类是指根据文本的内容和属性,将大量的文本归到一个或多个类别的过程。文本分类技术通过分析待分类对象,提取出分类对象特阵,比较待分类对象和系统预定义类别对象的特征,将待分类对象划归为特征量最相近的一类,并赋予相应的分类号。计算机并不具有人类的智能,从根本上说,它只认识和,所以必须将文本转换为计算机可以识别的格式。假定组成文本的字或词在确定文本类别的作用上相互独立,这样,可以就使用文本中出现的字或词的集合来代替文本。在信息处理方向上,向量来表示文本信息首先,替文本建立一个词库,词库中词的个数。为文本的维数然后就可以利用词库来构造向量(W1,…,Wn)T。表示文本信息,其中Wi表示了词库中第i个词在文本中出现的次数。很显然,构造文本的词汇量是相当大的,因此,文本向量的维数。也是巨大的。对此,我们有必要进行数据降维,以提高算法效率和运行速度,再对降维的结果进行分类。
  3. 基因序列的建模。蛋白质是由氨基酸组成的序列,氨基酸分子的个数从几十个到成千上万不等。具有相同空间结构但氨基酸排列不同的蛋白质,被分为同一组中,这就是所谓的蛋白质组类似于基因组。通过蛋白质组模型可以了解不同蛋白质组的特殊的性质,能够有助于辨别和发现新组。但由于蛋白质组特征的维数很高,这给辨别和分析带来了很大的困难。通过数据降维,可以用很少的简单变量来反映蛋白质组的性质,以利于辨别和分析。

由于真实世界中的数据往往是高维的,而高维的数据难以被人理解、表示和处理,因此需要采用数据降维以获得低维的数据。经过降维的数据可以更好的进行分析,因此对降维问题的研究成为机器学习和数据挖掘中的重要主题。数据降维算法可以分成两类,一类是线性降维方法,如主成分分析法、多维尺度算法和非负矩阵分解等; 另一类是非线性降维方法,如等距映射算法、局部线性嵌入法和局部切空间排列方法等。


非线性降维

非线性降维就是通常所说的流形学习,这里先给出流形学习中的一些数学定义

流形学习中的一些数学定义:

拓朴:一个拓朴空间就是一个集对(X,τ),其中集合X为一非空集合,拓扑τ是的满足以下性质的子集族:

  1. τ关于属于它的任意多元素的并运算是封闭的;
  2. τ关于属于它的有限多元素的交运算是封闭的;
  3. τ含有空集∅和X本身作为其元素。

Haufdorff空间:如果对X中任意两个不同点x,y,都存在x的邻域U以及y的邻域V使得U∩V=∅。此时,称(X,τ)为Haufdorff空间。
流形:设M是一个Haufdorff拓扑空间,若对每一点P∈M,都有的一个开邻域U,它与Rd的某个开子集同胚,则称M为d维拓扑流形,简称为d维流形。
微分流形:一个d维Ck流形就是一对(M,Λ),其中M为d维流形,Λ={(Uα,φα)}α∈A为一Ck的微分结构,即满足以下条件:

  1. (局部欧氏性){Uα:α∈A}构成M的一个开覆盖,φα:Uα→φα(Uα)为同胚映射;
  2. (Ck相容性)若Uα∩Uβ≠∅,则双射
    φα°φβ-1:φβ(Uα∩Uβ)→φα(Uα∩Uβ)
    和它的逆映射都是k次可微的,则称(Uαα)与(Uββ)是相容的。

有时间再写

【流行学习简介】:假设数据是均匀采样于一个高维欧氏空间中的低维流形流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。流形学习方法是模式识别中的基本方法,分为线性流形学习算法和非线性流形学习算法,线性方法就是传统的方法如主成分分析(PCA)和线性判别分析(LDA),非线行流形学习算法包括等距映射(Isomap),拉普拉斯特征映射(LE)等。 【文件包括】: (1)12篇在流形学习理论中具有里程碑意义的文献: [2000] A Global Geometric Framework for Nonlinear Dimensionality Reduction [2000] Nonlinear Dimensionality Reduction by Locally Linear Embedding [2000] the Manifold Ways of Perception [2003] Hessian Eigen-maps: New Locally Linear Embedding Techniques for High-dimensional Data [2004] Locality Pursuit Embedding [2005] Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment [2005] 高维数据流形的低维嵌入及嵌入维数研究 [2005] 基于放大因子和延伸方向研究流形学习算法 [2005] 一种改进的局部切空间排列算法 [2006] 流形学习概述 [2008] Agent普适机器学习分类器 [2008] 基于流形学习的纤维丛模型研究 其中,前两篇在2000年刊登在Science上。 (2)一篇介绍这些文献的总论短文,梳理了文献的门类,介绍了如何更快地从体系上了解流形学习技术。 【注】:这些资料的总价值在100美元左右,均有英文版本,本人吐血奉献,希望大家能从中收益。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值