深度学习的几何观点:1流形分布定律、2学习能力的上限。附顾险峰教授简历(长文慎入,公号回复“深度学习流形分布”可下载PDF资料)

深度学习的几何观点:1流形分布定律、2学习能力的上限。附顾险峰教授简历(长文慎入,公号回复“深度学习流形分布”可下载PDF资料)

原创: 顾险峰 数据简化DataSimp 今天

数据简化DataSimp导读:深度学习基于数据本身的内在规律,揭示并利用这些规律。美国纽约州立大学石溪分校计算机系终身教授顾险峰《深度学习的几何观点:1流形分布定律、2学习能力的上限》,讲述数据科学(或信息科学)中的:1、流形分布定律:自然界中同一类别的高维数据,往往集中在某个低维流形附近。2、聚类分布定律:这一类别中不同的子类对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。(或者更为保守的,基本假设)。数据简化社区获顾教授授权,合并转发。附顾险峰教授简历。

用数学方法描述世界、解决问题,是科学发展的核心动力。知识是如何被发现产生出来,以及不同知识间的渊源和启发关系,比记住很多知识更重要。对于人类来说,文字知识是记录人类智能和思想的手段,而非终点。把文字考试作为教育目标,是极其简单粗暴不负责任的。从启迪思想来说,应试是舍本逐末,愚昧落后的教育者要负责任。AI时代来临,在大多数研究者仍然没有掌握计算机设计开发技术精髓的情况下,很难相信如何跨过计算机科学“弯道超车”步入人工智能科学。我们必须理解计算机、人工智能是如何诞生,背后的科学思想和原理是什幺?加油!只会空想空谈喊口号表忠心可不行,而浪费人财物时间精力投入骗经费的则可耻。(秦陇纪,2018)

相关文章推荐:计算机应用中存在性证明的代数拓扑方法(8565字)

目录

深度学习的几何观点:1流形分布定律、2学习能力的上限。附顾险峰简历(16210)

01深度学习的几何观点——流形分布定律 (5009)

02深度学习的几何观点——学习能力的上限 (5309)

03上期:计算机应用中存在性证明的代数拓扑方法 (1398)

04纽约石溪大学顾险峰教授简历 (3852)

1 求学经历 2 主要贡献 3 几何之恋 4 学术交流

参考文献(253)Appx(626).数据简化DataSimp社区简介


:近期,哈佛大学丘成桐先生领导的团队,大连理工大学罗钟铉教授、雷娜教授领导的团队应用几何方法研究深度学习;老顾受邀在一些大学和科研机构做了题为“深度学习的几何观点”的报告,汇报了这方面的进展情况。这里是报告的简要记录,具体内容见[1]。

 

01深度学习的几何观点——流形分布定律 (5009)

深度学习的几何观点(1 - 流形分布定律

|原创:顾险峰,老顾谈几何2018-06-04

深度学习技术正在深刻地改变着人类的历史进程,它在图像识别、语音识别、自然语言处理、文本翻译等几乎所有信息科学领域,都带来了翻天覆地的革命。我们这个时代所面临的最为根本的问题之一就是为深度学习的有效性给出一个合理的答案。

纵观人类历史的历次技术革命,火的使用,青铜器的制作工艺,农业的大规模普及,机械的应用,内燃机的发明,电力电气工业的成熟,电子计算机技术的推广,信息工业的蓬勃发展等等,无一不是建筑在深刻的自然科学原理之上的。虽然当时人类可能主观上并没有真正意识到,但是在客观上都是顺应了自然,可能是物理、化学、或者生物方面的基本定律。那么深度学习的巨大成功究竟归功于哪一条自然定律?

我们认为,和历史上的历次技术革命不同,深度学习的成功是基于两条:数据本身的内在规律,深度学习技术能够揭示并利用这些规律。数据科学(或者信息科学)中的基本定律(或者更为保守的,基本假设)可以归结为:

1. 流形分布定律:自然界中同一类别的高维数据,往往集中在某个低维流形附近。

2. 聚类分布定律:这一类别中不同的子类对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。

深度学习的主要目的和功能之一就是从数据中学习隐藏的流形结构和流形上的概率分布。

1. 流形的定义。

关于聚类分布定律,目前有相对完善的理论基础——最优传输理论,和较为实用的算法,例如基于凸几何的蒙日-安培方程解法[2],这些方法可以测量概率分布之间的距离,实现概率分布之间的变换[3]。关于流形分布定律,目前理论发展不太完备,很多时候学习效果严重依赖于调参。但是很多实际应用问题,都可以用流形的框架来建模,从而用几何的语言来描述、梳理,用几何理论工具来加以解决,进而有望从含混模糊的经验性试错,进化到思路清晰的定量研究。

流形结构

流形是拓扑和微分几何中最为基本的概念,本质上就是很多欧氏空间粘贴在一起构成的空间。如图1所示,一个流形(manifold)是一个拓扑空间S,被一族开集所覆盖,对于每个开集存在一个同胚映射被称为是坐标映射称为是参数域(R是实数集合)构成一个局部坐标卡(local chart),所有局部坐标卡构成流形的图册(atlas)。在交集,每个点可以有多个局部坐标,在局部坐标间存在变换从流形到坐标域的变换被称为是参数化,其逆变换,从局部坐标到流形的变换被称为是流形的局部参数表示。如果流形S嵌入到欧氏空间中,则欧氏空间被称为是背景空间

例一:我们试举一例,嵌在三维欧氏空间中的单位球面是最为简单的二维流形,其局部参数表示为

这里球面是流形,三维欧氏空间背景空间局部坐标参数化映射可以写成

在深度学习中,有关流形的这些基本概念都有相应的术语,我们稍作翻译:流形上的一个点被称为是一个样本;参数域被称为是隐空间或者特征空间;参数化映射被称为是编码映射;流形的局部参数表示被称为是解码映射;点的局部坐标被称为是样本的编码特征深度学习的主要目的和功能之一就是学习编码映射和解码映射

2. 流形和参数化映射。

例二:如图2所示,米勒佛曲面是三维空间中的二维流形,参数化映射将曲面映射到平面圆盘。这一映射的逆映射给出了曲面的参数化表示。这里,所有的映射都是用分片线性映射来逼近的。注意,这里参数化映射并不唯一,这会带来隐空间概率密度的变化,后面我们会对此进行详细讨论。

3. 所有人脸图像符合流形分布定律。

例三:我们考察所有128X128rgb彩色图像所构成的空间,记为背景空间。背景空间中的任意一个点是一张rgb图像。空间中所有人脸的图像所构成的子集记为S,我们来分析一下人脸图像集合是否符合流形分布定律。一张人脸照片主要取决于如下条件:人脸的几何形状,皮肤的纹理特征和施加的化妆品,动态表情,光照条件,相机的内外参数等,人脸几何形状由几十条基因所决定。这些因素渐变时,人脸照片也是渐变。由此,我们有理由认为所有人脸图像分布在某个低维流形S附近。当然,由于随机噪音的存在,我们只能说所有人脸图像分布在S附近,而非精确地落在S上。我们的实验表明,人脸图像流形的隐空间大概有100维左右。

那么在现实中,我们如何学习人脸图像构成的流形呢?这里所谓的学习意味着什么?答案是用人脸图片的样本集来训练深度神经网络,我们可以得到人脸图像流形的参数化映射(编码)和局部参数表示(解码)。

编码、解码器

4. 自动编码解码器。

自动编码器(autoencoder)是非常基本的深度学习模型,用来学习流形结构。如图3所示,自动编码器是一个前馈网络,输入和输出维数相等,输入输出都是背景空间。中间有一个瓶颈层,瓶颈层的输出空间为特征空间

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值