我试图理解为什么Keras中的正则化语法看起来像这样。在
一般来说,正则化是通过在与模型权重的某个函数成比例的损失函数中添加惩罚项来减少过度拟合的方法。因此,我希望正则化被定义为模型损失函数规范的一部分。在
然而,在Keras中,正则化是在每层的基础上定义的。例如,考虑这个正则化的DNN模型:input = Input(name='the_input', shape=(None, input_shape))
x = Dense(units = 250, activation='tanh', name='dense_1', kernel_regularizer=l2, bias_regularizer=l2, activity_regularizer=l2)(x)
x = Dense(units = 28, name='dense_2',kernel_regularizer=l2, bias_regularizer=l2, activity_regularizer=l2)(x)
y_pred = Activation('softmax', name='softmax')(x)
mymodel= Model(inputs=input, outputs=y_pred)
mymodel.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'])
我本以为稠密层中的正则化参数是不需要的,我可以把最后一行写得更像:
^{pr2}$
这显然是错误的语法,但我希望有人能为我详细解释一下为什么正则化是这样定义的,以及当我使用层级正则化时实际发生了什么。在
我不明白的另一件事是在什么情况下我会使用这三种正则化方法中的每一种或全部:(kernel_regularizer, activity_regularizer, bias_regularizer)?在