甘利俊一 | 信息几何法:理解深度神经网络学习机制的重要工具

本文介绍了信息几何法在理解深度神经网络学习机制中的重要性,回顾了反向传播算法的历史,以及统计神经动力学在深度学习理论中的应用。甘利俊一教授的演讲阐述了如何利用统计神经动力学研究深度随机网络,揭示深度学习在参数量远大于训练样本时仍能有效学习的理论基础。
摘要由CSDN通过智能技术生成

智源导读:深度学习的统计神经动力主要涉及用信息几何的方法对深度随机权值网络进行研究。深度学习技术近年来在计算机视觉、语音识别等任务取得了巨大成功,但是其背后的数学理论发展却很滞后。日本理化所的Shun-ichi Amari先生(中文:甘利俊一)近期在北京智源大会上发表了题为《信息几何法:理解深度神经网络学习机制的重要工具》的演讲。在演讲中,甘利先生梳理了人工神经网络研究的部分重要历史事件,分享了近两年在深度学习理论的一些最新研究成果,指出统计神经动力学方法可以为理解深度学习提供重要的理论工具。

整理:邹晓龙、陈智强

Shun-ichi Amari是日本理化所的荣休教授,神经网络研究的教父级人物,一生做出了大量开拓性的成果,包括独立发展了信息几何(Information Geometry),首次提出了随机梯度下降算法(1967)、连续吸引子神经网络(1977)、Amari-Hopfield模型、nature gradient等。

01

 反向传播算法的历史

图1. 随机梯度下降算法

深度神经网络成功离不开反向传播算法,亦称随机梯度下降算法。随机梯度下降算法,假设x是输入,y是神经网络的输出。那么如何学习神经网络的参数W,我们可以基于训练数据D,构建一个损失函数,通过损失函数对参数W求梯度,即可以得到参数的更新值,如图1所示。 

图2. 随机梯度下降算法的历史

随机梯度算法在历史上曾多次被不同的研究者独立地提出。甘利先生是随机梯度算法的最早提出者之一。Rosenblatt在1958年提出了感知机模型,当时的感知机模型采用的是MCP神经元模型,即状态值为离散的0或者1,模型基于简单的感知机学习法则进行学习。

在上世纪60年代,甘利先生在研究这个问题时,为了克服多层感知机学习难题,考虑用一种非线性的模拟神经元来替代不可导的MCP神经元,并构建了一个可微分的,简单的平方损失函数,这样整个网络

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值