2021-01-19

最新推荐文章于 2024-09-03 22:57:13 发布

Kiki酱。

最新推荐文章于 2024-09-03 22:57:13 发布

阅读量173

点赞数

分类专栏：笔记文章标签：深度学习机器学习神经网络 tensorflow

原文链接：https://blog.csdn.net/xovee/article/details/92794763?ops_request_misc=%25257B%252522request%25255Fid%252522%25253A%252522161106465516780274120395%252522%25252C%252522scm%252522%25253A%25252220140713.130102334.pc%25255Fall.%252522%25257D&request_id=1611064

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

原文
在这里插入图片描述
在设计深度学习模型的时候，我们经常需要使用正则化（Regularization）技巧来减少模型的过拟合效果，例如 L1 正则化、L2 正则化等。在Keras中，我们可以方便地使用三种正则化技巧：

keras.regularizers.l1
keras.regularizers.l
keras.regularizers.l1_l2

那么，我们应该如何使用这三种正则化技巧呢？以Keras中的Dense层为例，我们发现有以下三个参数：

kernel_regularizer
bias_regularizer
activity_regularizer

这三个参数代表什么含义，我们该使用哪一个呢？国内论坛鲜少有相关讨论，写此文以记之。

三个参数的异同
kernel_regularizer：在旧版本的Keras中，该参数叫做weight_regularizer，即是对该层中的权值进行正则化，亦即对权值进行限制，使其不至于过大。
bias_regularizer:与权值类似，限制该层中 biases 的大小。
activity_regularizer:更让人费解，activity又代表什么？其实就是对该层的输出进行正则化
现在我们知道了这三个参数的异同，那么，我们该在什么时候使用哪一个参数呢？网友 Bloc97 [1] 如是说：

大多数情况下，使用kernel_regularizer就足够了(即对权值进行正则化）；
如果你希望输入和输出是接近的，你可以使用bias_regularizer；
如果你希望该层的输出尽量小，你应该使用activity_regularizer。

实验

我们使用一个简单的模型来测试以下正则化的效果，基准代码如下：

from tensorflow.python import keras


mnist = keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=10)
model.evaluate(x_test, y_test)

实验结果如下：
在这里插入图片描述

实验结果（初步分析，并不绝对）说明：

正则化系数的选择很重要，选的不对容易有负面影响，选的好的话实验效果有提升；
实验四、五、六说明，在当前实验环境下，无论是 L1、L2，还是 L1_L2，对实验结果影响都不大；
可能是由于 MNIST 任务太过于简单，实验结果区别都不是很大。具体使用哪种方法，只能由各位看官自己探索了。

Reference
Bloc97. (December 17, 2018). Difference between kernel, bias, and activity regulizers in Keras. Retrieved from https://stats.stackexchange.com/questions/383310/difference-between-kernel-bias-and-activity-regulizers-in-keras

Kiki酱。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-01-19

原文在设计深度学习模型的时候，我们经常需要使用正则化（Regularization）技巧来减少模型的过拟合效果，例如 L1 正则化、L2 正则化等。在Keras中，我们可以方便地使用三种正则化技巧：keras.regularizers.l1keras.regularizers.lkeras.regularizers.l1_l2那么，我们应该如何使用这三种正则化技巧呢？以Keras中的Dense层为例，我们发现有以下三个参数：kernel_regularizerbias_regulari
复制链接

扫一扫