过拟合(高方差)与欠拟合(高偏差)

最新推荐文章于 2024-08-03 13:57:10 发布

WaPyAu

最新推荐文章于 2024-08-03 13:57:10 发布

阅读量891

点赞数

分类专栏： DL学习笔记文章标签： python 神经网络机器学习深度学习

本文链接：https://blog.csdn.net/WaPy_CSDN/article/details/105197515

版权

DL学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

过拟合与欠拟合

1、机器学习的根本问题是优化和泛化之间的对立
优化（optimization）是指调节模型以在训练数据上得到最佳性能（即机器学习中的学习），而泛化（generalization）是指训练好的模型在前所未见的数据上的性能好坏。机器学习的目的当然是得到良好的泛化，但你无法控制泛化，只能基于训练数据调节模型。
2、优化和泛化是相关的：
训练数据上的损失越小，测试数据上的损失也越小。这时的模型是欠拟合（underfit）的，即仍有改进的空间，网络还没有对训练数据中所有相关模式建模。但在训练数据上迭代一定次数之后，泛化不再提高，验证指标先是不变，然后开始变差，即模型开始过拟合
3、降低过拟合的方法叫作正则化（regularization）。
4、将使用IMDB测试集作为我们的验证集
5、IMDB数据集包含了50000条偏向明显的评论，其中25000条作为训练集，25000作为测试集。label为pos(positive)和neg(negative)
6、另外在kaggle也有相似的数据
7、enumerate(sequence, [start=0])
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中
8、防止过拟合的最简单的方法就是减小模型大小，减少模型中可学习参数的个数（这由层数和每层的单元个数决定）

始终牢记：深度学习模型通常都很擅长拟合训练数据，但真正的挑战在于泛化，而不是拟合。

9、你使用的模型应该具有足够多的参数，以防欠拟合
要找到合适的模型大小，一般的工作流程是开始时选择相对较少的层和参数，然后逐渐增加层的大小或增加新层，直到这种增加对验证损失的影响变得很小
9、例如，IMDB在最后一层使用了sigmoid函数，回归的例子最后一层没有使用激活函数
10、模型优化-RMSprop优化模型RMSprop的处理方法
11、添加权重正则化
你可能知道奥卡姆剃刀（Occam’s razor）原理：如果一件事情有两种解释，那么最可能正确的解释就是最简单的那个，即假设更少的那个。这个原理也适用于神经网络学到的模型：给定一些训练数据和一种网络架构，很多组权重值（即很多模型）都可以解释这些数据。简单模型比复杂模型更不容易过拟合。
这里的简单模型（simple model）是指参数值分布的熵更小的模型（或参数更少的模型，比如上一节的例子）。因此，一种常见的降低过拟合的方法就是强制让模型权重只能取较小的值，从而限制模型的复杂度，这使得权重值的分布更加规则（regular）。这种方法叫作权重正则化（weight regularization），其实现方法是向网络损失函数中添加与较大权重值相关的成本（cost）。这个成本有两种形式。
•L1 正则化（L1 regularization）：添加的成本与权重系数的绝对值［权重的 L1 范数（norm）］成正比。
•L2 正则化（L2 regularization）：添加的成本与权重系数的平方（权重的 L2 范数）成正比。神经网络的 L2 正则化也叫权重衰减（weight decay）。不要被不同的名称搞混，权重衰减与 L2 正则化在数学上是完全相同的。
在 Keras 中，添加权重正则化的方法是向层传递权重正则化项实例（weight regularizer instance）作为关键字参数。下列代码将向电影评论分类网络中添加 L2 权重正则化。

12、添加 dropout 正则化
dropout 是神经网络最有效也最常用的正则化方法之一，它是由多伦多大学的 Geoffrey Hinton和他的学生开发的。对某一层使用 dropout，就是在训练过程中随机将该层的一些输出特征舍弃（设置为 0）。假设在训练过程中，某一层对给定输入样本的返回值应该是向量 [0.2, 0.5, 1.3, 0.8, 1.1]。使用 dropout 后，这个向量会有几个随机的元素变成 0，比如 [0, 0.5,1.3, 0, 1.1]。dropout 比率（dropout rate）是被设为 0 的特征所占的比例，通常在 0.2~0.5 范围内。测试时没有单元被舍弃，而该层的输出值需要按 dropout 比率缩小，因为这时比训练时有更多的单元被激活，需要加以平衡。
假设有一个包含某层输出的 Numpy 矩阵 layer_output，其形状为 (batch_size, features)。训练时，我们随机将矩阵中一部分值设为 0。

13、总结一下，防止神经网络过拟合的常用方法包括：
•获取更多的训练数据
•减小网络容量
•添加权重正则化
•添加 dropout

由于电脑内存问题并没有跑出结果

import gc
import keras # Keras就是一个包含各种各样深度学习模型并且方便调用的库，通过接口你便可以构造想要的模型，调用即可
from keras.datasets import imdb
import numpy as np


(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words = 10000)
def vectorize_sequences(sequences, dimension = 10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

x_train = vectorize_sequences(train_data)
x_test =  vectorize_sequences(test_data)
y_train = vectorize_sequences(train_labels).astype("float32")
y_test = vectorize_sequences(test_labels).astype("float32")

x_val = x_train[:3000]
partial_x_train = x_test[:3000]
y_val = y_train[:3000]
partial_y_train = y_test[:3000]

# 原始神经网络，定义层和激活函数
from keras import models
from keras import layers
original_models = models.Sequential()
original_models.add(layers.Dense(16, activation="relu", input_shape=(10000, )))
original_models.add(layers.Dense(16, activation="relu"))
original_models.add(layers.Dense(1, activation="sigmoid"))
# 添加损失函数和优化器还有评价指标
original_models.compile(optimizer = "rmsprop",
                        loss = "binary_crossentropy",
                        metrics = ["acc"])

# 添加一个小的网络模型 
smaller_models = models.Sequential()
smaller_models.add(layers.Dense(4, activation = "relu", input_shape = (10000, )))
smaller_models.add(layers.Dense(4, activaton = "relu"))
smaller_models.add(layers.Dense(1, activation = "sigmoid"))
original_models.compile(optimizer = "rmsprop",
                        loss = "binary_crossentrop",
                        metrics = ["acc"])

original_hist = original_models.fit(x_val, y_val,
                                    epochs = 20,
                                    batch_size = 512,
                                    validation_data = (partial_x_train, partial_y_train))

smaller_models_hist = smaller_models.fit(x_train, y_train,
                                         epochs = 20,
                                         batch_size = 512,
                                         validation_data = (x_test, y_test ))
epochs = range(1, 20)
original_val_loss = original_hist.history("val_loss")
smallers_models_val_loss = smaller_models_hist.history("val_loss")

import matplotlib.pyplot as plt

plt.plot(epochs, original_val_loss, "b+", label = "Original model")
plt.plot(epochs, smallers_models_val_loss, "bo", label = "smaller model")
plt.xlabel("Epocs")
plt.ylabel("Validation loss")
plt.legend()
plt.show()

'''
# 再向这个基准中添加一个容量更大的网络（容量远大于问题所需）。
bigger_model = models.Sequential()
bigger_model.add(layers.Dense(512, activation='relu', input_shape=(10000,)))
bigger_model.add(layers.Dense(512, activation='relu'))
bigger_model.add(layers.Dense(1, activation='sigmoid'))

bigger_model.compile(optimizer='rmsprop',
                     loss='binary_crossentropy',
                     metrics=['acc'])

bigger_model_hist = bigger_model.fit(x_train, y_train,
                                     epochs=20,
                                     batch_size=512,
                                     validation_data=(x_test, y_test))
# 下图显示了更大的网络与参考网络的性能对比。圆点是更大网络的验证损失值，十字是原始网络的验证损失值
bigger_model_val_loss = bigger_model_hist.history['val_loss']

plt.plot(epochs, original_val_loss, 'b+', label='Original model')
plt.plot(epochs, bigger_model_val_loss, 'bo', label='Bigger model')
plt.xlabel('Epochs')
plt.ylabel('Validation loss')
plt.legend()

plt.show()

# 下图同时给出了这两个网络的训练损失
original_train_loss = original_hist.history['loss']
bigger_model_train_loss = bigger_model_hist.history['loss']

plt.plot(epochs, original_train_loss, 'b+', label='Original model')
plt.plot(epochs, bigger_model_train_loss, 'bo', label='Bigger model')
plt.xlabel('Epochs')
plt.ylabel('Training loss')
plt.legend()

plt.show()

# 添加权重正则化
from keras import regularizers

l2_model = models.Sequential()
l2_model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
                          activation='relu', input_shape=(10000,)))
l2_model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001),
                          activation='relu'))
l2_model.add(layers.Dense(1, activation='sigmoid'))


l2_model.compile(optimizer='rmsprop',
                 loss='binary_crossentropy',
                 metrics=['acc']) 

# 下图显示了 L2 正则化惩罚的影响
l2_model_hist = l2_model.fit(x_train, y_train,
                             epochs=20,
                             batch_size=512,
                             validation_data=(x_test, y_test))

l2_model_val_loss = l2_model_hist.history['val_loss']

plt.plot(epochs, original_val_loss, 'b+', label='Original model')
plt.plot(epochs, l2_model_val_loss, 'bo', label='L2-regularized model')
plt.xlabel('Epochs')
plt.ylabel('Validation loss')
plt.legend()

plt.show()


# 你还可以用 Keras 中以下这些权重正则化项来代替 L2 正则化

from keras import regularizers

# L1 regularization（L1 正则化）
regularizers.l1(0.001)

# L1 and L2 regularization at the same time（同时做 L1 和 L2 正则化）
regularizers.l1_l2(l1=0.001, l2=0.001)

#我们向 IMDB 网络中添加两个 Dropout 层，来看一下它们降低过拟合的效果我们向 IMDB 网络中添加两个 Dropout 层，来看一下它们降低过拟合的效果
dpt_model = models.Sequential()
dpt_model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
dpt_model.add(layers.Dropout(0.5))
dpt_model.add(layers.Dense(16, activation='relu'))
dpt_model.add(layers.Dropout(0.5))
dpt_model.add(layers.Dense(1, activation='sigmoid'))

dpt_model.compile(optimizer='rmsprop',
                  loss='binary_crossentropy',
                  metrics=['acc'])

dpt_model_hist = dpt_model.fit(x_train, y_train,
                               epochs=20,
                               batch_size=512,
                               validation_data=(x_test, y_test))

dpt_model_val_loss = dpt_model_hist.history['val_loss']

plt.plot(epochs, original_val_loss, 'b+', label='Original model')
plt.plot(epochs, dpt_model_val_loss, 'bo', label='Dropout-regularized model')
plt.xlabel('Epochs')
plt.ylabel('Validation loss')
plt.legend()

plt.show()
'''