关于过拟合
过拟合的很重要一个评判标准:在训练集上结果足够好
关于DropOut
只有在训练集很好 且 测试集不好的时候用
如果训练集效果很差,Dropout之后只会更差
关于深度越深效果越差的现象
这个是由梯度消失导致的,靠近输入端的参数的梯度会很小,更新速度慢.
为什么会这样呢?可以从微分的定义角度来看这个问题:即自变量的微小改变对因变量的影响大小.
然后再结合sigmoid的特性,即实数域到(0,1)的映射.宏观来看是一种缩小,每sigmoid一次,就会缩小一次
那么自变量对因变量的影响,也自然而然的缩小
RELU函数-激活函数
为了避免上面那个sigmoid导致的问题,提出的新的激活函数,用于中间层激活
有个问题就是Relu不可微,这个要怎么解决?可以理解成只有在z=0的时候不可微,即大多数情况是可微分的,