对多层神经网络过拟合的总结
激活函数解决非线性问题
神经网络解决非线性问题的方法是使用激活函数,TensorFlow中常用的激活函数有:
tf.nn.relu
、tf.sigmoid
、tf.tanh
。
使用激活函数的前向传播算法:a = tf.nn.relu(tf.matmul(x, w1) + biases1
。
反向传播算法
反向传播算法是训练神经网络的核心算法。它可以根据定义好的损失函数优化神经网络中参数的取值。
(1)、学习率。TensorFlow提供了指数衰减法,
tf.train.exponential_decay()
函数实现指数衰减学习率。可以随着迭代的步骤,逐步减小学习率。
(2)、正则化。为了避免过拟合问题,一个常用的方法是正则化。正则化的思想是在损失函数中加入正则项刻画模型。loss = tf.reduce_mean(tf.square(y_ - y)) + tf.contrib.layers.l2_regularizer(lambda)(w)。
(3)、滑动平均模型。滑动平均模型是另外一个可以使模型在测试数据上更健壮的方法。TensorFlow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时,需要提供一个衰减率(decay)。ExponentialMovingAverage会对每一个变量会维护一个影子