《python深度学习》笔记(十八):训练一个卷积神经网络

1.过拟合总结

1.造成过拟合的原因:

①.训练集太少,导致无法训练出能够泛化新数据的模型。

②.训练集和测试集的数据分布不一致。

③.模型本身特别复杂,深度太大。

2.解决过拟合的方法:

①针对训练集太少,可以增加训练数据。

②针对模型复杂,可以降低模型复杂度。

③权重正则化,这是解决过拟合的常用方法。

④dropout正则化,迭代过程中,随机丢弃神经网络的神经元。

⑤early stop,训练过程中,如果训练误差继续减小,但测试误差已经开始增加,此时停止训练。

⑥BN,在每层之间加上神经元的权重调成正态分布的正则化层。

⑦数据增强,从现有的数据中生成更多的训练样本。


2.在小型数据集上从头开始训练一个卷积神经网络

步骤:

①下载数据集,并创建训练集、验证集和测试集的文件夹

②数据预处理:将数据输入神经网络之前,需要将数据格式化为经过预处理的浮点数张量。读取数据,将文件解码为RGB网格像素,再转化为浮点数张量,最后将像素缩放到【0-1】之间,因为神经网络喜欢处理较小的数据。

③构建网络结构:根据数据集的大小适当调整网络的大小。网络中特征图的深度在逐渐增大,而特征图的尺寸在逐渐减小,这几乎是所有卷积神经网络结构的模式

④训练并保存模型(如果结果出现过拟合,可以针对不同情况对数据进行数据增强等,再保存模型)

因为深度学习学到的特征在不同问题之间具有可移植性,所以我们以上训练的网络可以应用于某个不相干的任务。由于每个任务又有所不同,不可能用完全一样的网络结构,所以就有了使用预训练网络的方法。

预训练网络包括特征提取微调模型

特征提取:在神经网络结构中,负责特征提取的层是卷积层和池化层,我们把这部分叫作模型的卷积基。特征提取就是使用之前训练好的卷积基,在改变全连接层(分类器)。

 微调模型:与特征提取互为补充,微调是指将用于特征提取的模型基进行冻结,其顶部的几层“解冻”,并将解冻的几层和新增的部分联合训练。

微调的步骤

①在训练好的基网络上添加自定义的网络

②冻结基网络

③训练添加的部分

④解冻基网络的一些层

⑤联合训练解冻的这些层和添加的部分

顶部:可复用特征

底部:专业化特征 

完整代码:

#  在小型数据集上从头开始训练一个卷积神经网络


import os  # 对文件,文件夹执行操作的一个模块。
import shutil  # 复制文件内容,创建文件的新副本并进行归档
# 原始数据集解压目录
original_dataset_dir = 'F:/dogs_vs_cats/kaggle/train'

# 创建新的数据集,将包含三个子集
base_dir = 'F:\dogs_vs_cats\cats_and_dogs_small6'
os.mkdir(base_dir)  # 创建目录




# 创建训练集
train_dir = os.path.join(base_dir, 'train')  # 连接两个或更多的路径名组件
os.mkdir(train_dir)  # 创建目录
# 创建验证集
validation_dir = os.path.join(base_dir, 'validation')
os.mkdir(validation_dir)
# 创建测试集
test_dir = os.path.join(base_dir, 'test')
os.mkdir(test_dir)


# 创建猫的训练图像目录
train_cats_dir = os.path.join(train_dir, 'cats')
os.mkdir(train_cats_dir)
# 创建狗的训练图像目录
train_dogs_dir = os.path.join(train_dir, 'dogs')
os.mkdir(train_dogs_dir)
# 创建猫的验证图像目录
validation_cats_dir = os.path.join(validation_dir, 'cats')
os.mkdir(validation_cats_dir)
# 创建狗的验证图像目录
validation_dogs_dir = os.path.join(validation_dir, 'dogs')
os.mkdir(validation_dogs_dir)
# 创建猫的测试图像目录
test_cats_dir = os.path.join(test_dir, 'cats')
os.mkdir(test_cats_dir)
# 创建狗的测试图像目录
test_dogs_dir = os.path.join(test_dir, 'dogs')
os.mkdir(test_dogs_dir)


# 将前1000张猫的图像复制到train_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(train_cats_dir, fname)
    shutil.copyfile(src, dst)

# 接下来分别将500张猫的图像复制到validation_cats_dir和test_cats_dir,代码同上
fnames = ['cat.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(validation_cats_dir, fname)
    shutil.copyfile(src, dst)

fnames = ['cat.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(test_cats_dir, fname)
    shutil.copyfile(src, dst)

# 接下来是按照上面复制猫的图像方法把狗的图像划分开
fnames = ['dog.{}.jpg'.format(i) for i in range(1000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(train_dogs_dir, fname)
    shutil.copyfile(src, dst)

fnames = ['dog.{}.jpg'.format(i) for i in range(1000, 1500)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(validation_dogs_dir, fname)
    shutil.copyfile(src, dst)

fnames = ['dog.{}.jpg'.format(i) for i in range(1500, 2000)]
for fname in fnames:
    src = os.path.join(original_dataset_dir, fname)
    dst = os.path.join(test_dogs_dir, fname)
    shutil.copyfile(src, dst)



# 构建网络,实例化猫狗分类的小卷积神经网络
from keras import layers
from keras import models

model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Flatten())
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

# 配置模型用于训练
from tensorflow.keras import optimizers

model.compile(loss='binary_crossentropy',
              optimizer=optimizers.RMSprop(learning_rate=1e-4),
              metrics=['acc'])
print(model.summary())
# 数据预处理
# 数据以 JPEG 文件的形式保存在硬盘中,所以数据预处理步骤大致如下。
# (1) 读取图像文件。
# (2) 将 JPEG 文件解码为 RGB 像素网格。
# (3) 将这些像素网格转换为浮点数张量。
# (4) 将像素值(0~255 范围内)缩放到 [0, 1] 区间(正如你所知,神经网络喜欢处理#较小的输
# 入值)。
# keras可以自动完成这些处理步骤,在keras.preprocessing.image的ImageDataGenerator类中

from keras.preprocessing.image import ImageDataGenerator

train_datagen = ImageDataGenerator(rescale=1. / 255)
test_datagen = ImageDataGenerator(rescale=1. / 255)  # 将所有图像缩小255倍,在0-1之间
# flow_from_directory(): 获取图像路径,生成批量增强数据。该方法只需指定数据所在的路径,而无需输入numpy形式的数据,
# 也无需输入标签值,会自动返回对应的标签值
train_generator = train_datagen.flow_from_directory(train_dir,  # 目标目录
        target_size=(150, 150),  # 调整图像大小为150*150
        batch_size=20,
        class_mode='binary')  # 使用了binary_corssentropy损失,所以用二进制标签

validation_generator = test_datagen.flow_from_directory(validation_dir,  # 目标目录
        target_size=(150, 150),  # 调整图像大小为150*150
        batch_size=20,
        class_mode='binary')  # 使用了binary_corssentropy损失,所以用二进制标签

# 利用批量生成器拟合模型

history = model.fit(
    train_generator,
    steps_per_epoch=100,  # 从生成器中抽取steps_per_epoch个批量后(即运行了steps_per_epoch次梯度下降),拟合进入到下一轮次
    epochs=30,
    validation_data=validation_generator,
    validation_steps=50)  # 从验证生成器中抽取多少个批次用于评估

# 保存模型
model.save('cats_and_dogs_small_1.h5')  # 以后可以用这个模型训练新数据

# 绘制训练过程中的损失曲线和精度曲线

import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(1, len(acc) + 1)
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()

# 利用ImageDataGenerator来设置数据增强
from keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(rotation_range=40,  # 旋转
                             width_shift_range=0.2,  # 左右平移
                             height_shift_range=0.2,  # 上下平移
                             shear_range=0.2,  # 错切变换
                             zoom_range=0.2,  # 缩放变换
                             horizontal_flip=True,  # 水平翻转
                             fill_mode='nearest')  # 填充

# 显示几个随机增强后的训练图像
# from keras.preprocessing import image
import matplotlib.pyplot as plt
#
# fnames = [os.path.join(train_cats_dir, fname) for fname in os.listdir(train_cats_dir)]  # 返回指定路径下的文件和文件夹列表
# img_path = fnames[3]  # 编号为3的图片
# img = image.load_img(img_path, target_size=(150, 150))  # 读取图像并调整图像大小
# x = image.img_to_array(img)  # 将其转换为形状(150,150,3)的numpy数组
# x = x.reshape((1,) + x.shape)  # 将其形状改变为(1,150,150,3),原来的行踪前面加1,1为变换
#
# i = 0
# for batch in datagen.flow(x, batch_size=2):
#     plt.figure(i)
#
#     imgplot = plt.imshow(image.array_to_img(batch[0]))
#     i += 1
#     if i % 4 == 0:
#         break
# plt.show()

# 定义一个包含dropout的新卷积神经网络
from keras import layers
from keras import models

model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Flatten())
model.add(layers.Dropout(0.5))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

from tensorflow.keras import optimizers

model.compile(loss='binary_crossentropy',
               optimizer=optimizers.RMSprop(lr=1e-4),
               metrics=['acc'])

# 使用数据增强,只对训练数据进行增强,测试数据不进行增强
from keras.preprocessing.image import ImageDataGenerator
train_datagen = ImageDataGenerator(rescale=1. / 255,
                                   rotation_range=40,
                                   width_shift_range=0.2,
                                   height_shift_range=0.2,
                                   shear_range=0.2,
                                   zoom_range=0.2,
                                   horizontal_flip=True, )
test_datagen = ImageDataGenerator(rescale=1. / 255)  # 将所有图像缩小255倍,在0-1之间
train_generator = train_datagen.flow_from_directory(train_dir,  # 目标目录
                    target_size=(150, 150),  # 调整图像大小为150*150
                    batch_size=20,
                    class_mode='binary')  # 使用了binary_corssentropy损失,所以用二进制标签
validation_generator = test_datagen.flow_from_directory(validation_dir,  # 目标目录
                    target_size=(150, 150),  # 调整图像大小为150*150
                    batch_size=20,
                    class_mode='binary')  # 使用了binary_corssentropy损失,所以用二进制标签

history = model.fit(
    train_generator,
    steps_per_epoch=100,  # 从生成器中抽取steps_per_epoch个批量后(即运行了steps_per_epoch次梯度下降),拟合进入到下一轮次
    epochs=20,
    validation_data=validation_generator,
    validation_steps=50)  # 从验证生成器中抽取多少个批次用于评估



acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(1, len(acc) + 1)
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()
plt.figure()
plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()
plt.show()

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 我可以提供一个简单的Python示例,用于构建DenseNet网络模型:# 导入必要的库 import keras from keras.layers import Dense, Conv2D, BatchNormalization, Activation from keras.layers import AveragePooling2D, Input, Flatten from keras.regularizers import l2 from keras.models import Model# 定义Dense Block def dense_block(x, blocks, name): """A dense block. # Arguments x: input tensor. blocks: integer, the number of building blocks. name: string, block label. # Returns output tensor for the block. """ for i in range(blocks): x = conv_block(x, 32, name=name + '_block' + str(i + 1)) return x# 定义构建densenet网络模型 def DenseNet(input_shape, classes): """Instantiates the DenseNet architecture. # Arguments input_shape: optional shape tuple, only to be specified if `include_top` is False (otherwise the input shape has to be `(32, 32, 3)` (with `channels_last` data format) or `(3, 32, 32)` (with `channels_first` data format). It should have exactly 3 inputs channels, and width and height should be no smaller than 8. E.g. `(200, 200, 3)` would be one valid value. classes: The number of classes to classify images into, only to be specified if `include_top` is True, and if no `weights` argument is specified. # Returns A Keras model instance. """ # 定义输入 inputs = Input(shape=input_shape) # 调用dense block x = dense_block(inputs, 4, name='dense_1') # 全局平均池化层 x = AveragePooling2D(pool_size=7, strides=None, padding='same')(x) # 展平层 x = Flatten()(x) # 全连接层 outputs = Dense(classes, activation='softmax', kernel_initializer='he_normal')(x) # 创建模型 model = Model(inputs, outputs) return model ### 回答2: DenseNet是一种深度学习网络模型,其主要特点是具有密集连接的结构,通过在每个层级中将输入连接到后续层级中的所有前馈路径,旨在解决深层网络梯度消失和特征重复利用的问题。下面是用Python编写DenseNet网络模型的基本步骤: 1. 导入所需的Python库,例如NumPy、Keras和TensorFlow等。 2. 定义DenseNet网络模型的主体结构。DenseNet由多个密集块(dense block)组成。每个密集块中包含若干个相互连接的卷积层。在每个密集块的后面是一个过渡层(transition layer),用于减小输出特征图的维度。 3. 在每个密集块内部,定义相互连接的卷积层。这些卷积层通常由一个Batch Normalization层、一个ReLU激活函数和一个卷积层组成。 4. 在相邻的层之间进行连接,将前一个层的输出作为后一个层的输入,以实现密集连接的结构。 5. 在所需的输出层之前,最后添加全局平均池化层用于降低特征图的维度。 6. 编译和训练模型。设置损失函数和优化器,并使用适当的训练数据进行训练。 7. 评估模型的性能。使用测试数据对模型进行评估,计算准确率、损失等指标。 8. 使用模型进行预测。输入新的数据样本,使用已经训练好的模型进行预测。 需要注意的是,以上仅为DenseNet网络模型的基本步骤,具体的实现细节可能因使用的深度学习库和数据集而有所不同。编写DenseNet模型时,还需根据具体需求和数据集调整网络结构和超参数,以获得更好的性能。 ### 回答3: import torch import torch.nn as nn class BottleneckLayer(nn.Module): def __init__(self, in_channels, growth_rate): super(BottleneckLayer, self).__init__() self.bn1 = nn.BatchNorm2d(in_channels) self.relu1 = nn.ReLU(inplace=True) self.conv1 = nn.Conv2d(in_channels, 4 * growth_rate, kernel_size=1, bias=False) self.bn2 = nn.BatchNorm2d(4 * growth_rate) self.relu2 = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d(4 * growth_rate, growth_rate, kernel_size=3, padding=1, bias=False) def forward(self, x): identity = x out = self.bn1(x) out = self.relu1(out) out = self.conv1(out) out = self.bn2(out) out = self.relu2(out) out = self.conv2(out) out = torch.cat([identity, out], dim=1) return out class DenseBlock(nn.Module): def __init__(self, in_channels, num_layers, growth_rate): super(DenseBlock, self).__init__() self.layers = nn.ModuleList([BottleneckLayer(in_channels + i * growth_rate, growth_rate) for i in range(num_layers)]) def forward(self, x): for layer in self.layers: x = layer(x) return x class TransitionLayer(nn.Module): def __init__(self, in_channels, out_channels): super(TransitionLayer, self).__init__() self.bn = nn.BatchNorm2d(in_channels) self.relu = nn.ReLU(inplace=True) self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=1, bias=False) self.avg_pool = nn.AvgPool2d(kernel_size=2, stride=2) def forward(self, x): out = self.bn(x) out = self.relu(out) out = self.conv(out) out = self.avg_pool(out) return out class DenseNet(nn.Module): def __init__(self, block_config, growth_rate=32, num_classes=1000): super(DenseNet, self).__init__() self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False) self.relu = nn.ReLU(inplace=True) self.max_pool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1) self.dense_block_1 = self._make_dense_block(block_config[0], growth_rate) self.transition_1 = self._make_transition_layer(64 + block_config[0] * growth_rate, growth_rate) self.dense_block_2 = self._make_dense_block(block_config[1], growth_rate) self.transition_2 = self._make_transition_layer(64 + block_config[0] * growth_rate + block_config[1] * growth_rate, growth_rate) self.dense_block_3 = self._make_dense_block(block_config[2], growth_rate) self.transition_3 = self._make_transition_layer(64 + block_config[0] * growth_rate + block_config[1] * growth_rate + block_config[2] * growth_rate, growth_rate) self.dense_block_4 = self._make_dense_block(block_config[3], growth_rate) self.avg_pool = nn.AdaptiveAvgPool2d((1, 1)) self.fc = nn.Linear(64 + block_config[0] * growth_rate + block_config[1] * growth_rate + block_config[2] * growth_rate + block_config[3] * growth_rate, num_classes) def forward(self, x): out = self.conv1(x) out = self.relu(out) out = self.max_pool(out) out = self.dense_block_1(out) out = self.transition_1(out) out = self.dense_block_2(out) out = self.transition_2(out) out = self.dense_block_3(out) out = self.transition_3(out) out = self.dense_block_4(out) out = self.avg_pool(out) out = torch.flatten(out, 1) out = self.fc(out) return out def _make_dense_block(self, num_layers, growth_rate): layers = [] for i in range(num_layers): layers.append(BottleneckLayer(growth_rate, growth_rate)) return DenseBlock(growth_rate, num_layers, growth_rate) def _make_transition_layer(self, in_channels, out_channels): return TransitionLayer(in_channels, out_channels) # 模型参数设置 block_config = [6, 12, 24, 16] growth_rate = 32 num_classes = 1000 # 创建DenseNet模型 model = DenseNet(block_config, growth_rate, num_classes) # 打印模型结构 print(model) 使用Python编写了一个DenseNet网络模型。DenseNet是一种卷积神经网络架构,具有低延迟和高精度的特点。该模型由多个DenseBlock组成,其中每个DenseBlock由多个BottleneckLayer堆叠而成,以增加网络的深度和复杂性。每个BottleneckLayer由BatchNormalization、ReLU和Convolutional层构成。通过连接之前的特征图和当前层的输出,实现了密集连接,使得模型能够充分利用之前层的特征信息。在DenseBlock之间,使用TransitionLayer进行降维和下采样操作,以减小网络参数和内存的消耗。最后通过全局平均池化、全连接层和Softmax函数将输出映射到指定的类别上。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码字神经元

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值