建立的简易模型
梯度下降法
将其泰勒展开,可以看到,f(wk+1)>f(wk)
建立在简易模型的BP算法
定义目标函数:
算法流程:
激活函数
阶跃函数
sigmoid
将阶跃函数进行改造
tanh
在上述两种 函数中,当x很大时,其函数值变化不大,存在上界,也就是算出来的x很大时,其向后传导的信息被压缩了,也就是所谓的梯度消失。此外,还有可能出现梯度爆炸。
relu
对于这个函数,当x<0时,使其函数值为0,也就是如果神经元算出,x为负值,那么不再将其向后传播,(也就是杀死这些神经元,使其失活)以减小训练的规模。仅保留x>0的神经元,且不设上界,避免了梯度消失和梯度爆炸,防止过拟合。
Leak Relu
没有完全杀死那些x<0的神经元,只是降低神经元的活性。
通用的BP算法
(求偏导时,要从后先前求)