背景
如果没有选取激活函数,那么神经网络的层数的累积还是线性的;但选取激活函数后,神经网络具有非线性的性质。
激活函数种类
S型激活函数 (Sigmoid, Tanh)
“加班”激活函数(ReLU, Leaky ReLU, ELU, GELU)
ReLU (可能会陷入Dead)
ELU 计算量较大
Maxout激活函数
自动搜索激活函数(Swish)
参数初始化
好的参数初始化:各层激活值不能为0,也不会出现饱和;每层的权重方差、梯度与层数无关,会更加有利于优化。
简单的初始化方法:随机初始化 np.random.randn(n);标准初始化(配合归一化)等
Xavier初始化:课程的激活值和梯度的方差在传播过程中保持一致,适合Sigmoid,Tanh函数
MSRA初始化:适合ReLU