干货!基于信息瓶颈理论的神经元竞争初始化策略

本文从信息瓶颈理论出发,探讨神经网络初始化的新策略。通过结合神经元的竞争机制,提出了一种能提升泛化性能和加快收敛速度的初始化方法。在MNIST数据集上的实验结果显示,该方法在训练效果和收敛速度上优于传统初始化策略。
摘要由CSDN通过智能技术生成

点击蓝字

712cb9308e0e107438de512b55d38a0c.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

神经网络初始化作为神经网络中训练不可或缺的一环,对神经网络优化过程有着重要的影响。先前的工作更多关注如何避免训练中出现梯度消失、梯度爆炸等现象,却很少关注怎样的初始化能加快神经网络的收敛速度,提高神经网络的泛化性能。本文从信息瓶颈理论出发,为神经网络初始化提供一种新视角,并设计出一套通用的基于神经元竞争的初始化策略。

本期AI TIME PhD直播间,我们邀请到电子科技大学信息与软件工程学院——毛海涛,为我们带来报告分享《基于信息瓶颈理论的神经元竞争初始化策略》。

9221bdf133a5d54c64a70ee73ba806d3.png

毛海涛

电子科技大学信息与软件工程学院四年级本科生。主要研究兴趣为:神经网络基础研究,自适应图神经网络,金融知识图谱。本篇于微软亚洲研究院实习期间由研究员杜仑,首席研究员付强共同指导完成,并荣获CIKM2021 Best Short Paper。

个人主页:ME - 悫躍 (huanhuqueyue.github.io)

01

Background

1.1 Informal Bottleneck Theory

信息瓶颈理论由Tishby提出,旨在解释神经网络泛化性能。该理论认为神经网络由前向后传递信息的过程中会去除掉无关的噪声,只保留最相关的特征,如在神经网络优化目标中,最大化和Y之间的互信息,保留和输出之间的关联性,最小化和输入之间的关系。

该理论可以从时间和空间两方面进一步深入理解。从空间角度来看,神经网络的前层类似于encoder,更关注于隐藏层与X之间的互信息;而后层类似于decoder,更关注于去除无关信息,保留只和Y更相关的信息如图1(左)所示;从时间角度来看,训练过程可分为两个阶段如图1(右)所示,阶段1对应于训练前期,隐藏层和X、Y的互信息都会增大,可认为是一个

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值