神经网络中的权重初始化问题weight initialization problem in FNN

个人论文完成笔记
^ _ ^欢迎批评指正
本篇文章研究的是全连接的多层神经网络中的权重初始化问题,以8-20-30-1的MLP为实验对象。神经网络是一种要素间关联性极强的结构,从输入数据,输入数据的scaling,输入数据划分的batch,到每一隐藏层初始化的权重,节点个数,激活函数的选择,再到层数,最终输出函数的选择,和输出节点个数,都是彼此影响的,其中,权重初始化,与激活函数的选择和输入数据存在较强的关联性,不同的权重初始化可能造成不同的问题的产生。
以下的bp算法指的是standard bp算法

I-9:
D. Erdogmus, O. Fontenla-Romero, J. C. Principe, A. Alonso-Betanzos and E. Castillo, “Linear-least-squares initialization of multilayer perceptrons through backpropagation of the desired response,” in IEEE Transactions on Neural Networks, vol. 16, no. 2, pp. 325-337, March 2005, doi: 10.1109/TNN.2004.841777.

神经网络结构 neural network structure applied: 多输入多输出多层神经网络(文章用Single Hidden Layer MLP进行算法阐述)multi-input & multi-output MLP
激活函数non-linearity or activation function
需要减少的代价函数: 每一个PE的MSE
初始化算法类型:LS (Least square)
算法涉及重点参数:desired value of output before and after non-linearity; actual value of output before and after non-linearity; on different layers
算法描述:
将神经网络训练集的y输出矩阵设定为output layer的desired value of output,对每个y通过non-linearity or activation function的反函数求得对before non-linearity or activation function的output 的desired value,通过
实验数据集对象:
实验评估指标:

D-4:
Petr Dolezel, Pavel Skrabanek, Lumir Gago, Weight Initialization Possibilities for Feedforward Neural Network with Linear Saturated Activation Functions, IFAC-PapersOnLine, Volume 49, Issue 25,
2016, Pages 49-54, ISSN 2405-8963, https://doi.org/10.1016/j.ifacol.2016.12.009.

神经网络结构 neural network structure applied: multi-input & one- output (transform the input vector x into a scalar value y) Piecewise- linear neural network
训练算法training algorithm: Levenberg - Marquardt loss fucntion: MSE
No pruning
No scaling
激活函数non-linearity or activation function:Symmetric linear saturated activation function (特征:not fully differentiable) output layer function:v
实验数据集对象:大类为Function Approximation的四小类Function (continuous function - discontinuous function - simulated first order time series - real dynamic system of twin rotor aerodynamic device)
最优初始化算法:Nguyen- Widrow method
实验评估指标:convergence speed - the number of epochs & performance - over defined number of epochs
本文对比了四种权重初始化方法在function approximation上的收敛速度和准确率,选择了四种数据集:连续函数,离散函数,时间序列和real-time

F-6:
X. Glorot and Y. Bengio. Understanding the difficulty of
training deep feedforward neural networks. In International
Conference on Artificial Intelligence and Statistics, pages
249–256, 2010.

训练算法:back propagation optimizer:SGD cost function: logistic regression activation function:softsign output layer function:LogSoftmax
loss function:NLLess
本文是著名的Xaveir权重初始化法,文章重点表明了前提先决条件:linear regime,核心观点是在向前的过程中保持状态方差不变,在向后传播过程中保持梯度方差不变,然后根据这两个条件计算出权重初始化所在区间

C-3:
K. He, X. Zhang, S. Ren, J. Sun, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, in: ICCV, 2015.

本文是著名的Kaiming He算法,针对CNN,在提出新的激活函数PReLu之后设计了一种能够解决nonlinearities的权重初始化方法,核心思想同样是保持正向传播状态方差不变,反向传播梯度方差不变
实际上,通过该方法的有效性可以看出,权重初始化与激活函数的关系非常密切,不仅是要求每一层经过权重计算的output要在激活函数的可导有效区间里

H-8:
Junfei Qiao, Sanyi Li, Wenjing Li, Mutual information based weight initialization method for sigmoidal feedforward neural networks,
Neurocomputing, Volume 207, 2016, Pages 676-683, ISSN 0925-2312,
https://doi.org/10.1016/j.neucom.2016.05.054.

本文运用了信息学中的参数:信息熵和交互信息值,通过计算输入变量与输出变量的交互信息值,判断输入变量所含有用信息的多少,根据其有用信息的多少来确定其对应权重的区间,与输出变量关系越大,所包含的有用信息越多,则对应的权重区间越大
RMSE

B-2:
J.Y.F. Yam, T.W.S. Chow
A weight initialization method for improving training speed in feedforward neural network
Neurocomputing, 30 (1–4) (2000), pp. 219-232

神经网络:训练算法back-propagation optimizer SGD 损失函数 E activation function: sigmoid output layer function:sigmoid
B篇文章解决的问题是function approximation类问题,
算法描述:为了确保每一层的输出都在下一层激活函数的active region,该方法先得出一个区间集合,表示出下一层激活函数的active region,如果下一层使用channel-wised激活函数,则区间集合应只包含一个含有两个标量的区间,列出不等式即每一层的output应该处于这个区间内,通过柯西不等式和统计学的规则,最终可以利用权重的分布特点,input数据的平方和,channel数,和s得出权重区间,然后由第一层到最后一层
实际上,该方法属于IA类方法
G-7:
S.P. Adam, D.A. Karras, G.D. Magoulas, M.N. Vrahatis
Solving the linear interval tolerance problem for weight initialization of neural networks
Neural Netw., 54 (2014), pp. 17-37

文章G将权重初始化问题视为一种linear interval tolerance problem,其中运用的LIT-Approach是权重初始化中IA类方法的一种,linear interval tolerance problem的主要特点是会考虑被估计所处区间的参数的不确定性。当一些权重初始化算法考虑input data的信息熵,往往能借助该数据得到更贴切的权重初始化,但是会极大地加大运算量;但完全不考虑input data的权重初始化事实上并不能得到有效结果;LIT-Approach方法考虑且利用了input data的elementary statistics (sample mean)
G方法的特点是在不同的神经网络层应用的权重初始化方法是不同的

E-5:
H. H. Tan and K. H. Lim, “Vanishing Gradient Mitigation with Deep Learning Neural Network Optimization,” 2019 7th International Conference on Smart Computing & Communications (ICSCC), Sarawak, Malaysia, Malaysia, 2019, pp. 1-4, doi: 10.1109/ICSCC.2019.8843652.

J-10:
Y. Lee, S. -. Oh and M. W. Kim, “The effect of initial weights on premature saturation in back-propagation learning,” IJCNN-91-Seattle International Joint Conference on Neural Networks, Seattle, WA, USA, 1991, pp. 765-770 vol.1, doi: 10.1109/IJCNN.1991.155275.

A-1:
Nguyen, D., & Widrow, B. (1990). Improving the learning speed of two-layer neural networks by choosing initial values of the adaptive weights. In Proceedings of the international joint conference on neural networks, IJCNN’90, Ann Arbor, MI, vol. 3 (pp. 21–26).
O-11
Nguyen and Widrow, “The truck backer-upper: an example of self-learning in neural networks,” International 1989 Joint Conference on Neural Networks, Washington, DC, USA, 1989, pp. 357-363 vol.2, doi: 10.1109/IJCNN.1989.118723.
小车emulator以及小车controller
emulator 7输入 7输出 数据集:从已知状态根据信号到下一状态的所有可能的集合 完全模拟小车倒车过程 controller 7输入 1输出 数据集:在笛卡尔直角坐标系的状态和信号集
emulator神经网络:训练算法back-propagation optimizer steepest descent 损失函数 MSE activation function: sigmoid output layer function:v
这两篇文章涉及的是著名的Nguyen-Widrow算法,本质同样是确定权重的区间,权重区间的确定用到的数值有hidden layer上的神经元个数,以及输入和权重向量的维度

本文新颖点:
对于权重初始化使用区间方法则一次初始化完成对区间两头的两个值的应用
把8篇文章 以x1x2-21-y(N-W 网络)的MLP模拟一下 不同的training algorithm、optimizer、loss function 、learning rate、activation function更新方法解决同一个分类问题(no),同一个function approximation问题,用同一套数据可视化方法,完成数据可视化,就可以知道,参数具体的更新过程以及损失下降过程,针对过程出现的某些独特之处,适用一个相应可以解决的weight initialization办法。
不足:input data set的影响是极大的 但本文的办法普适性更高 计算量小 模块化性

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习神经网络权重初始化方法对模型的收敛速度和性能有着至关重要的影响。一个好的权重初始化方法可以帮助解决梯度消失和梯度爆炸的问题,并且有利于模型的性能和收敛速度。 在当前的深度学习,隐藏层常使用ReLU作为激活函数,并且常用的权重初始化方法是He initialization。这种初始化方法通过根据ReLU的特性,将权重初始化为均值为0,标准差为sqrt(2/n)的高斯分布,其n是上一层神经元的数量。这种方法在实践显示出比Xavier initialization更好的效果。 当然,除了He initialization之外,还有其他几种常用的权重初始化方法,如Xavier initialization和正交初始化等。这些方法根据不同的特性和需求,在不同的情况下可能会有更好的效果。 总之,权重初始化深度学习的重要步骤之一,它对模型的性能和收敛速度有着重要的影响,而He initialization是当前深度学习常用的神经网络权重初始化方法之一。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [深度学习神经网络的几种权重初始化方法](https://blog.csdn.net/Harrytsz/article/details/120840148)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值