正则:
L1正则化可以产生稀疏权值矩阵,进而可以用于特征选择(绝对值之和),L2正则化用于防止过拟合(平方和开平方)。
生成模型和判别模型:
梯度消失、梯度爆炸:初始化权重过大过小,造成权重指数级变小、变大,训练困难
解决方法:初始化参数时更加小心,标准正态分布,方差为1/输入的神经元个数。 具体做法:np.random.randn(n)*np.sqrt(1/n)。不同的激活函数,tanh取1或者relu取2。
激活函数:tanh: [-1,1] ; tanh >sigmod; sigmod仅用于最后一层,因为分布为【0,1】
relu:a=max(0,z); sigmod=1/(1+e~(-x)); tanh= (e(x) - e~(x))/(e(x) + e~(x)) (sin/cos)
优化算法:
adam :学习率:a
为什么要深度学习:
相同的数据函数, 深度学习消耗的节点和计算较少,而浅层需要的节点数会呈指数级增加。
梯度下降的方式:minibatch、随机梯度下降、batch梯度下降
算法优化的方式:logitic 最大似然的损失函数,激活函数之前的求导为= a-y