- 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
- 🍖 原作者:K同学啊
一、前期工作
2. 导入数据
从‘tensorflow’库中导入数据集和相关模块。在这里,使用了‘cifar10’数据集,这个数据集包含了10类彩色图片(如飞机、汽车、鸟等),常用于图像分类任务。
import tensorflow as tf
from tensorflow.keras import datasets, layers, models
import matplotlib.pyplot as plt
(train_images, train_labels), (test_images, test_labels) = datasets.cifar10.load_data()
3. 归一化
将图片的像素值标准化到0到1的范围内。原始的像素值范围是0到255,通过除以255.0,将其缩放到0到1之间,这有助于加快模型的训练收敛速度。
train_images = train_images / 255.0
test_images = test_images / 255.0
如果要将彩色图片转换为灰度图片进行比较:
train_images_gray = tf.image.rgb_to_grayscale(train_images)
test_images_gray = tf.image.rgb_to_grayscale(test_images)
4. 可视化
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer',
'dog', 'frog', 'horse', 'ship', 'truck']
plt.figure(figsize=(10,10))
for i in range(25):
plt.subplot(5,5,i+1)
plt.xticks([])
plt.yticks([])
plt.grid(False)
plt.imshow(train_images[i])
plt.xlabel(class_names[train_labels[i][0]])
plt.show()
二、构建CNN网络
卷积层和池化层:
- 卷积层(Conv2D)是用来提取图片中的局部特征的。
- 池化层(MaxPooling2D)是用于降低特征图的维度,同时保留最重要的特征信息。
- 多层卷积和池化的堆叠可以让模型逐渐学习到更高层次的特征,比如边缘、纹理,最后到具体物体形状。
Flatten层和全连接层:
- Flatten层将二维的特征图展平为一维向量,便于输入到全连接层(Dense)。
- 全连接层负责综合提取到的特征,输出每个类别的概率值。
model = models.Sequential([
layers.Conv2D(64, (3, 3), activation='relu', input_shape=(32, 32, 3)), # 使用彩色图片
layers.MaxPooling2D((2, 2)),
layers.Conv2D(128, (3, 3), activation='relu'),
layers.MaxPooling2D((2, 2)),
layers.Conv2D(128, (3, 3), activation='relu'),
layers.Flatten(),
layers.Dense(256, activation='relu'),
layers.Dropout(0.5), # 防止过拟合
layers.Dense(10, activation='softmax')
如果使用灰度图片,将input_shape修改为(32, 32, 1),并在模型训练时使用灰度图片数据。
# model = models.Sequential([
# layers.Conv2D(64, (3, 3), activation='relu', input_shape=(32, 32, 1)), # 使用灰度图片
# layers.MaxPooling2D((2, 2)),
# layers.Conv2D(128, (3, 3), activation='relu'),
# layers.MaxPooling2D((2, 2)),
# layers.Conv2D(128, (3, 3), activation='relu'),
# layers.Flatten(),
# layers.Dense(256, activation='relu'),
# layers.Dropout(0.5),
# layers.Dense(10, activation='softmax')
# ])
5. 编译模型
model.compile(optimizer='adam',
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
metrics=['accuracy'])
6. 训练模型
history = model.fit(train_images, train_labels, epochs=10,
validation_data=(test_images, test_labels))
# 如果使用灰度图片:
# history = model.fit(train_images_gray, train_labels, epochs=10,
# validation_data=(test_images_gray, test_labels))
7. 评估模型性能
plt.plot(history.history['accuracy'], label='accuracy')
plt.plot(history.history['val_accuracy'], label='val_accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.ylim([0.5, 1])
plt.legend(loc='lower right')
plt.show()
test_loss, test_acc = model.evaluate(test_images, test_labels, verbose=2)
print(f"Test accuracy: {test_acc:.2f}")
# 如果使用灰度图片:
# test_loss, test_acc = model.evaluate(test_images_gray, test_labels, verbose=2)
# print(f"Test accuracy: {test_acc:.2f}")
要点总结:
-
模型结构:增加了卷积层的深度和卷积核的数量,并在全连接层前添加了 Dropout 层来防止过拟合。
-
数据处理:对数据进行了归一化处理,并提供了将彩色图片转换为灰度图片的选项,以便你进行对比实验。
-
训练与评估:通过模型训练过程,记录每个 epoch 的训练集和验证集上的准确率,并在训练完成后使用测试集进行模型的最终评估。
彩色图片 vs. 灰度图片
- 彩色图片:
通常用 RGB 表示,包含红、绿、蓝三个通道。 对于 CIFAR-10 数据集,每张图片的尺寸是 32x32 像素,且有 3 个通道,因此每张图片的形状是 (32, 32, 3)。
2. 灰度图片:
只有一个通道,表示亮度。 如果将彩色图片转换为灰度图片,每张图片的形状将变为 (32, 32, 1),即只有一个通道。