低层不能用relu,会丢失数据,高层用relu,丢了也没关系
而维度低的数据其实就是这么一种情况:其信息的冗余度高的可能性本来就低,如果强行对其进行非线性激活(维度压缩),则很有可能丢失掉有用信息,甚至丢失掉全部信息(输出为全0)。
与非线性激活层不同的是,线性激活层并不压缩特征空间的维度。于是,我们得到了一条使用激活层的原则:
-
对含有冗余信息的数据使用非线性激活(如ReLU),对不含冗余信息的数据使用线性激活(如一些线性变换)。
-
两种类型的激活交替灵活使用,以同时兼顾非线性和信息的完整性。
-
由于冗余信息和非冗余信息所携带的有用信息是一样多的,因此在设计网络时,对内存消耗大的结构最好是用在非冗余信息上。
-
转自: