整理自莫烦python中的内容
1.增加数据量
2.L1,L2 regularization
L1:
c
o
s
t
=
(
W
x
−
y
)
2
+
a
b
s
(
W
)
cost = (Wx-y)^2 + abs(W)
cost=(Wx−y)2+abs(W)
L2:
c
o
s
t
=
(
W
x
−
y
)
2
+
(
W
)
2
cost = (Wx-y)^2 + (W)^2
cost=(Wx−y)2+(W)2
3.dropout regularization
在训练的时候, 我们随机忽略掉一些神经元和神经联结 , 是这个神经网络变得”不完整”. 用一个不完整的神经网络训练一次.
到第二次再随机忽略另一些, 变成另一个不完整的神经网络. 有了这些随机 drop 掉的规则, 我们可以想象其实每次训练的时候, 我们都让每一次预测结果都不会依赖于其中某部分特定的神经元. 像l1, l2正规化一样, 过度依赖的 W , 也就是训练参数的数值会很大, l1, l2会惩罚这些大的 参数. Dropout 的做法是从根本上让神经网络没机会过度依赖.
代码
#定义输入的时候加入这个语句
keep_prob = tf.placeholder(tf.float32) #keep_prob是保留概率
...
...
#定义层的时候函数加入这个
Wx_plus_b = tf.nn.dropout(Wx_plus_b, keep_prob)
keep_prob是保留概率,即我们要保留的结果所占比例,它作为一个placeholder,在run时传入, 当keep_prob=1的时候,相当于100%保留,也就是dropout没有起作用
#训练时,传入的数值后面加入
sess.run(train_step, feed_dict={xs: X_train, ys: y_train, keep_prob: 0.5})#传入值时,保留0.5