智源导读:深度学习的统计神经动力学主要涉及用信息几何的方法对深度随机权值网络进行研究。深度学习技术近年来在计算机视觉、语音识别等任务取得了巨大成功,但是其背后的数学理论发展却很滞后。日本理化所的Shun-ichi Amari先生(中文:甘利俊一)近期在北京智源大会上发表了题为《信息几何法:理解深度神经网络学习机制的重要工具》的演讲。在演讲中,甘利先生梳理了人工神经网络研究的部分重要历史事件,分享了近两年在深度学习理论的一些最新研究成果,指出统计神经动力学方法可以为理解深度学习提供重要的理论工具。
整理:邹晓龙、陈智强
Shun-ichi Amari是日本理化所的荣休教授,神经网络研究的教父级人物,一生做出了大量开拓性的成果,包括独立发展了信息几何(Information Geometry),首次提出了随机梯度下降算法(1967)、连续吸引子神经网络(1977)、Amari-Hopfield模型、nature gradient等。
01
反向传播算法的历史
图1. 随机梯度下降算法
深度神经网络成功离不开反向传播算法,亦称随机梯度下降算法。随机梯度下降算法,假设x是输入,y是神经网络的输出。那么如何学习神经网络的参数W,我们可以基于训练数据D,构建一个损失函数,通过损失函数对参数W求梯度,即可以得到参数的更新值,如图1所示。
图2. 随机梯度下降算法的历史
随机梯度算法在历史上曾多次被不同的研究者独立地提出。甘利先生是随机梯度算法的最早提出者之一。Rosenblatt在1958年提出了感知机模型,当时的感知机模型采用的是MCP神经元模型,即状态值为离散的0或者1,模型基于简单的感知机学习法则进行学习。
在上世纪60年代,甘利先生在研究这个问题时,为了克服多层感知机学习难题,考虑用一种非线性的模拟神经元来替代不可导的MCP神经元,并构建了一个可微分的,简单的平方损失函数,这样整个网络