记一次徐宗本院士的讲座——大数据分析技术图谱与研究举例

主讲嘉宾:徐宗本院士 主持人:申恒涛教授

海报原文:

       大数据分析与处理依赖特定的计算模式与全新的计算方法(称为大数据算法),设计创新的大数据计算模式与大数据算法是大数据的最核心技术,也是一个全新的领域。本报告引进大数据算法的谱系,并引进最优化理论与方法中的ADMM(alternating direction method of multipliers)作为大数据计算模式与算法设计的基本框架。

        我们说明:ADMM非常适宜于实现“数据分解、变量分组、随机化”等大数据算法设计原理,并通过应用于大数据回归、超大规模线性方程组等问题展示ADMM方法的有效性 。我们也说明:ADMM能够解释作深度学习网络,从而ADMM理论与深度学习方法的结合,能够形成一类全新的“模型与数据”双驱动的大数据学习技术。该类技术能很好地解决深度学习拓扑结构确定难的问题,也能很好解决ADMM难以应用于模型族的问题。我们运用新技术学习MR压缩感知成像取得了目前最好的效果,验证了新技术的可用性与高效性。

讲座笔记:

        大数据在中国发展不平衡,商业热而科研冷。大数据在量变的积累中,慢慢实现了知道数据背后信息和知识的质变。因此,从这个意义上来说,大数据的“大”不是一个特定的数据规模,因为针对不同的应用领域有不同的尺度,这个领域可以发现知识的数据量这另一个领域不一定有所突破。

        因此,“大”其实指的是一个临界点,或者称为“界”,当获得的数据量越过这个临界点的时候,人们就可以通过计算得到背后的知识。

        所以,“大”是一个针对于不同决策问题领域的相对概念。

        大数据应用领域:

  1. 大数据资源管理于公共政策(管理)
  2. 存储于处理(计算机)
  3. 分析理论于算法(数学)
  4. 结合具体领域(综合应用)

        数据是基础,平台作支撑,分析是核心,效益是根本。但中国重存储而不重分析,这和中国的科研人员较为普遍的用大量正在运转的硬件设备来讨好领导的官僚作风不无关系。

        几个困惑:

  1. 离散样本不等于连续母体
  2. 相关性不等于因果性
  3. 查询不等于推断
  4. 数据足够多不等于理论

        大数据存在的问题:

  1. 分析基础被破坏(统计、计算理论、逻辑受到颠覆,比如传统意义上算法理论认为多项式时间内的算法是好算法,但实际上对于大数据来说,n²时间复杂的算法便已无法承受,最多的忍受极限就是nlogn)
  2. 计算模式受到拷问(冯诺依曼的硬件架构已不再适合于大数据计算,因为计算和存储分开,大量的时间消耗在数据的传输上,大数据分析要实现存算一体化,这并不是不能实现的,人的大脑就是最好的实例)
  3. 传统的处理算法大都不可接受
  4. 分析的真伪性判定缺乏普遍的一般标准

        未来的大数据技术和计算机算法都需要解决的问题

  1. 分析学基础
  2. 计算平台
  3. 真伪性判定

        大数据产业链

数据产品+核心算法+基础算法

        大数据面临的7个问题

  1. 基本统计量
  2. 广义N体问题
  3. 图计算
  4. 线性代数计算
  5. 最优化问题
  6. 合并综合
  7. 对齐问题

        大数据的4个环境

  1. 数据流(只能存储一部分)
  2. 磁盘(数据不存在与RAM,存在于硬盘)
  3. 分布式(数据存储在多个机器中)
  4. 多线程(数据在一个拥有多处理器和一个共享RAM的机器上)

        深度学习的困惑:网络结构和性能的关系难以理解。实际上人们总是在盲目地套用别人的神经网络,而忽略了实际应用问题的领域建模知识。一个好的模型,能够很好地解决问题的同时,也代表了其对应用问题的抽象能力也是很好的。因此,徐院士在介绍一个图像识别问题的时候,给出了一个经验公式,式子由一个前面的矩阵计算乘积和其后的正则化项组成。因为这就是要最小化的代价函数,因此应用最优化理论对其进行泛函求解,最后得出的计算步骤的一部分实际上就等价于卷积和池化。在这个基础上开发的ADMM网络因此也就具有理论上的科学性和建模上的合理性。这实际上也给深度学习人员盲目开发并利用优良的计算资源盲目应用复杂的神经网络上了一课。好的模型永远来自于实际的现实,而不会来自于盲目地应用优良的GPU。

        因此,未来的深度学习模型要更好地融入数学、物理学和其他领域的领域知识,以更好地将理论和实际结合起来,走出盲目探索的深度学习蛮荒时代。

 

展开阅读全文

没有更多推荐了,返回首页