点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
神经网络初始化作为神经网络中训练不可或缺的一环,对神经网络优化过程有着重要的影响。先前的工作更多关注如何避免训练中出现梯度消失、梯度爆炸等现象,却很少关注怎样的初始化能加快神经网络的收敛速度,提高神经网络的泛化性能。本文从信息瓶颈理论出发,为神经网络初始化提供一种新视角,并设计出一套通用的基于神经元竞争的初始化策略。
本期AI TIME PhD直播间,我们邀请到电子科技大学信息与软件工程学院——毛海涛,为我们带来报告分享《基于信息瓶颈理论的神经元竞争初始化策略》。
毛海涛:
电子科技大学信息与软件工程学院四年级本科生。主要研究兴趣为:神经网络基础研究,自适应图神经网络,金融知识图谱。本篇于微软亚洲研究院实习期间由研究员杜仑,首席研究员付强共同指导完成,并荣获CIKM2021 Best Short Paper。
个人主页:ME - 悫躍 (huanhuqueyue.github.io)
01
Background
1.1 Informal Bottleneck Theory
信息瓶颈理论由Tishby提出,旨在解释神经网络泛化性能。该理论认为神经网络由前向后传递信息的过程中会去除掉无关的噪声,只保留最相关的特征,如在神经网络优化目标中,最大化和Y之间的互信息,保留和输出之间的关联性,最小化和输入之间的关系。
该理论可以从时间和空间两方面进一步深入理解。从空间角度来看,神经网络的前层类似于encoder,更关注于隐藏层与X之间的互信息;而后层类似于decoder,更关注于去除无关信息,保留只和Y更相关的信息如图1(左)所示;从时间角度来看,训练过程可分为两个阶段如图1(右)所示,阶段1对应于训练前期,隐藏层和X、Y的互信息都会增大,可认为是一个