机器学习初学-卷积神经网络识别StanfordDogsDataset狗狗图像

拿卷积网络识别MNIST图像举例

复习一下该程序的完整代码，并通过model.summary方法显示网络的结构，用图形的方式显示出这个有225034个参数、用序贯方式生成的卷积网络的形状。呈现出卷积神经网络的大体结构。

from keras import models # 导入Keras模型和各种神经网络的层

from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D

model = models.Sequential() # 序贯模型

model.add(Conv2D(filters=32, # 添加Conv2D层, 指定过滤器的个数, 即通道数

kernel_size=(3, 3), # 指定卷积核的大小

activation='relu', # 指定激活函数

input_shape=(28, 28, 1))) # 指定输入数据样本张量的类型

model.add(MaxPooling2D(pool_size=(2, 2))) # 添加Max Pooling2D层

model.add(Conv2D(64, (3, 3), activation='relu')) # 添加Conv2D层

model.add(MaxPooling2D(pool_size=(2, 2))) # 添加Max Pooling2D层

model.add(Dropout(0.25)) # 添加Dropout层

model.add(Flatten()) # 添加展平层

model.add(Dense(128, activation='relu')) # 添加全连接层

model.add(Dropout(0.5)) # 添加Dropout层

model.add(Dense(10, activation='softmax')) # Softmax分类激活, 输出10维分类码

model.compile(optimizer='rmsprop', # 指定优化器

loss='categorical_crossentropy', # 指定损失函数

metrics=['accuracy']) # 指定评估指标

model.summary() # 显示网络模型

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 conv2d_4 (Conv2D)           (None, 26, 26, 32)        320       
                                                                 
 max_pooling2d_4 (MaxPooling  (None, 13, 13, 32)       0         
 2D)                                                             
                                                                 
 conv2d_5 (Conv2D)           (None, 11, 11, 64)        18496     
                                                                 
 max_pooling2d_5 (MaxPooling  (None, 5, 5, 64)         0         
 2D)                                                             
                                                                 
 dropout_4 (Dropout)         (None, 5, 5, 64)          0         
                                                                 
 flatten_2 (Flatten)         (None, 1600)              0         
                                                                 
 dense_4 (Dense)             (None, 128)               204928    
                                                                 
 dropout_5 (Dropout)         (None, 128)               0         
                                                                 
 dense_5 (Dense)             (None, 10)                1290      
                                                                 
=================================================================
Total params: 225,034
Trainable params: 225,034
Non-trainable params: 0
_________________________________________________________________

卷积网络也是多层的神经网络，但是层内和层间神经元的类型和连接方式与普通神经网络不同。卷积神经网络由输入层、一个或多个卷积层和输出层的全连接层组成。

（1）网络左边仍然是数据输入部分，对数据做一些初始处理，如标准化、图片压缩、降维等工作，最后输入数据集的形状为（样本，图像高度，图像宽度，颜色深度）。

（2）中间是卷积层，这一层中，也有激活函数的存在，示例中用的是ReLU。

（3）一般卷积层之后接一个池化层，池化层包括区域平均池化或最大池化。

（4）通常卷积+池化的架构会重复几次，形成深度卷积网络。在这个过程中，图片特征张量的尺寸通常会逐渐减小，而深度将逐渐加深。如上一张图所示，特征图从一张扁扁的纸片形状变成了胖胖的矩形。

（5）之后是一个展平层，用于将网络展平。

（6）展平之后接一个普通的全连接层。

（7）最右边的输出层也是全连接层，用Softmax进行激活分类输出层，这与普通神经网络的做法一致。

（8）在编译网络时，使用了Adam优化器，以分类交叉熵作为损失函数，采用了准确率作为评估指标。

1载入StanfordDogsDataset

# 本示例只处理10种狗

dir = '../input/stanford-dogs-dataset/images/Images/'

chihuahua_dir = dir+'n02085620-Chihuahua' #吉娃娃

japanese_spaniel_dir = dir+'n02085782-Japanese_spaniel' #日本狆

maltese_dir = dir+'n02085936-Maltese_dog' #马尔济斯犬

pekinese_dir = dir+'n02086079-Pekinese' #狮子狗

shitzu_dir = dir+'n02086240-Shih-Tzu' #西施犬

blenheim_spaniel_dir = dir+'n02086646-Blenheim_spaniel' #英国可卡犬

papillon_dir = dir+'n02086910-papillon' #蝴蝶犬

toy_terrier_dir = dir+'n02087046-toy_terrier' #玩具猎狐梗

afghan_hound_dir = dir+'n02088094-Afghan_hound' #阿富汗猎犬

basset_dir = dir+'n02088238-basset' #巴吉度猎犬


import cv2 # 导入Open CV工具库

X = []

y_label = []

imgsize = 150

# 定义一个函数读入狗狗图像

def training_data(label, data_dir):

    print ("正在读入🐕"+ data_dir)

    for img in os.listdir(data_dir):

        path = os.path.join(data_dir, img)# 图像文件的完整路径

        img = cv2.imread(path, cv2.IMREAD_COLOR)# 以彩色图像方式加载图像数据

        img = cv2.resize(img, (imgsize, imgsize))# 调整图像大小

        X.append(np.array(img))# 将图像数据添加到列表X中

        y_label.append(str(label))
    

# 读入10个目录中的狗狗图像

training_data('chihuahua', chihuahua_dir)

training_data('japanese_spaniel', japanese_spaniel_dir)

training_data('maltese', maltese_dir)

training_data('pekinese', pekinese_dir)

training_data('shitzu', shitzu_dir)

training_data('blenheim_spaniel', blenheim_spaniel_dir)

training_data('papillon', papillon_dir)

training_data('toy_terrier', toy_terrier_dir)

training_data('afghan_hound', afghan_hound_dir)

training_data('basset', basset_dir)

print("🐕🐕🐕")

🐕🐕🐕

此时X和y仍是Python列表，而不是NumPy数组。

2构建X、y张量

下面的代码用于构建X、y张量，并将标签从文本转换为One-hot格式的分类编码：

from sklearn.preprocessing import LabelEncoder # 导入标签编码工具

from keras.utils.np_utils import to_categorical # 导入One-hot编码工具

label_encoder = LabelEncoder()

y = label_encoder.fit_transform(y_label) # 标签编码

y = to_categorical(y, 10) # 将标签转换为One-hot编码

X = np.array(X) # 将X从列表转换为张量数组

X = X/255 # 将X张量归一化

print ('X张量的形状：', X.shape)

print ('X张量中的数据：', X[0])

print ('y中的数据：', y)

也可以将已经缩放至［0，1］区间之后的张量重新以图像的形式显示出来：

import matplotlib.pyplot as plt  # 导入Matplotlib库
import random as rdm  # 导入随机数工具

# 随机显示几张可爱的狗狗图像

fig, ax = plt.subplots(5, 2)  # 创建一个包含5行2列子图的图形对象
fig.set_size_inches(20, 20)  # 设置图形对象的尺寸为20x20英寸

for i in range(5):  # 循环5次，控制行数

    for j in range(2):  # 循环2次，控制列数

        r = rdm.randint(0, len(X))  # 随机生成一个范围在0到X的长度之间的整数

        ax[i, j].imshow(X[r])  # 在当前子图中显示第r个图像
        ax[i, j].set_title('Dog: ' + y_label[r])  # 设置当前子图的标题为'Dog: '加上对应的标签

plt.tight_layout()  # 调整子图的布局，使其更紧凑

3拆分数据集

随机地乱序并拆分训练集和测试集

from sklearn.model_selection import train_test_split # 导入拆分工具

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=0)

下面就开始构建简单的卷积网络

from keras import layers # 导入所有层

from keras import models # 导入所有模型

cnn = models.Sequential() # 序贯模型

cnn.add(layers.Conv2D(32, (3, 3), activation='relu', # 卷积层

input_shape=(150, 150, 3)))

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Conv2D(64, (3, 3), activation='relu')) # 卷积层

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Conv2D(128, (3, 3), activation='relu')) # 卷积层

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Conv2D(128, (3, 3), activation='relu')) # 卷积层

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Flatten()) # 展平层

cnn.add(layers.Dense(512, activation='relu')) # 全连接层

cnn.add(layers.Dense(10, activation='softmax')) # 分类输出

cnn.compile(loss='categorical_crossentropy', # 损失函数

optimizer='rmsprop', # 优化器

metrics=['acc']) # 评估指标

cnn.summary()

Model: "sequential_8"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 conv2d_22 (Conv2D)          (None, 148, 148, 32)      896       
                                                                 
 max_pooling2d_22 (MaxPoolin  (None, 74, 74, 32)       0         
 g2D)                                                            
                                                                 
 conv2d_23 (Conv2D)          (None, 72, 72, 64)        18496     
                                                                 
 max_pooling2d_23 (MaxPoolin  (None, 36, 36, 64)       0         
 g2D)                                                            
                                                                 
 conv2d_24 (Conv2D)          (None, 34, 34, 128)       73856     
                                                                 
 max_pooling2d_24 (MaxPoolin  (None, 17, 17, 128)      0         
 g2D)                                                            
                                                                 
 conv2d_25 (Conv2D)          (None, 15, 15, 128)       147584    
                                                                 
 max_pooling2d_25 (MaxPoolin  (None, 7, 7, 128)        0         
 g2D)                                                            
                                                                 
 flatten_8 (Flatten)         (None, 6272)              0         
                                                                 
 dense_16 (Dense)            (None, 512)               3211776   
                                                                 
 dense_17 (Dense)            (None, 10)                5130      
                                                                 
=================================================================
Total params: 3,457,738
Trainable params: 3,457,738
Non-trainable params: 0
_________________________________________________________________

可以看出，卷积网络中，特征图的深度在逐渐增加（从32增大到128），而特征图的大小却逐渐减小（从150px×150px减小到7px×7px）。这是构建卷积神经网络的常见模式。

因为需要的层类型比较多，所以没有逐一导入，而是直接导入了Keras中所有的层。简单地介绍一下这个卷积网络中用到的各个层和超参数。

■Conv2D，是2D卷积层，对平面图像进行卷积。卷积层的参数32，（3，3）中，32是深度，即该层的卷积核个数，也就是通道数；后面的（3，3）代表卷积窗口大小。第一个卷积层中还通过input_shape=（150，150，3）指定了输入特征图的形状。

全部的卷积层都通过ReLU函数激活。

其实还有其他类型的卷积层，比如用于处理时序卷积的一维卷积层Conv1D等。

■Max Pooling2D，是最大池化层，一般紧随卷积层出现，通常采用2×2的窗口，默认步幅为2。这是将特征图进行2倍下采样，也就是高宽特征减半。

上面这种卷积+池化的架构一般要重复几次，同时逐渐增加特征的深度。

■Flatten，是展平层，将卷积操作的特征图展平后，才能够输入全连接层进一步处理。

■最后两个Dense，是全连接层。

□第一个是普通的层，用于计算权重，确定分类，用Re LU函数激活。

□第二个则只负责输出分类结果，因为是多分类，所以用Softmax函数激活。

■在网络编译时，需要选择合适的超参数。

□损失函数的选择是categorical_crossentropy，即分类交叉熵。它适用于多元分类问题，以衡量两个概率分布之间的距离，使之最小化，让输出结果尽可能接近真实值。

□优化器的选择是RMSProp。

□评估指标为准确率acc，等价于accucary。

4对网络进行训练

（为了简化模型，这里还是直接使用训练集数据进行验证）

上GPU

history = cnn.fit(X_train, y_train, # 指定训练集

epochs=50,# 指定轮次

batch_size=256,# 指定批量大小

validation_data=(X_test, y_test)) # 指定验证集

5绘制训练集和验证集上的损失曲线和准确率曲线

# 获取训练历史记录
train_loss = history.history['loss']
val_loss = history.history['val_loss']
train_acc = history.history['acc']
val_acc = history.history['val_acc']

# 绘制损失曲线
plt.plot(train_loss, label='Training Loss', color='blue', linestyle='-', marker='o')
plt.plot(val_loss, label='Validation Loss', color='red', linestyle='--', marker='s')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

# 绘制准确率曲线
plt.plot(train_acc, label='Training Accuracy', color='green', linestyle='-', marker='^')
plt.plot(val_acc, label='Validation Accuracy', color='purple', linestyle='--', marker='x')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

6优化器修改

 optimizer='rmsprop', # 优化器

改为

optimizer=optimizers.Adam(lr=1e-4), # 更新优化器并设定学习速率

在深度学习中，优化器（optimizer）是用于更新模型参数以最小化损失函数的算法。Adam 是一种常用的优化器之一，它结合了 AdaGrad 和 RMSProp 的优点，并引入了偏置修正。学习速率（learning rate）是优化器的一个参数，用于控制每次参数更新的步长或大小。

另外Adam会根据模型的历史梯度信息来动态的调整学习率

不设置初始值（optimizer='adam', # 优化器不设定学习速率）时：

Adam 优化器会自动调整学习速率。在 Adam 中，学习速率不需要手动调整，而是根据每个参数的梯度自适应地进行调整。

Adam 优化器使用了自适应学习速率算法，它会根据参数的梯度以及之前的梯度信息来自动调整学习速率。具体而言，Adam 优化器会计算每个参数的自适应学习速率，将较大梯度的参数的学习速率缩小，而将较小梯度的参数的学习速率放大，以更好地适应不同参数的更新需求。

因此，对于大多数情况下，使用 Adam 优化器并不需要手动设置学习速率，它会自动进行调整。设置默认的学习速率（如1e-4）是为了提供一个初始值，但在训练过程中，Adam 优化器会根据梯度自动调整学习速率，以便更好地优化模型。

然而，对于某些特定的问题和数据集，手动调整学习速率可能仍然是必要的。在这种情况下，你可以尝试不同的学习速率值，并观察模型的训练效果，选择最优的学习速率。但对于大多数情况下，Adam 优化器的默认学习速率通常是一个合理的选择。

7添加Dropout层并扩大轮次

from keras import layers # 导入所有层

from keras import models # 导入所有模型

from keras import optimizers # 导入优化器

cnn = models.Sequential() # 序贯模型

cnn.add(layers.Conv2D(32, (3, 3), activation='relu', # 卷积层

input_shape=(150, 150, 3)))

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Conv2D(64, (3, 3), activation='relu')) # 卷积层

cnn.add(layers.Dropout(0.5)) # Dropout层

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Conv2D(128, (3, 3), activation='relu')) # 卷积层

cnn.add(layers.Dropout(0.5)) # Dropout层

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Conv2D(256, (3, 3), activation='relu')) # 卷积层

cnn.add(layers.MaxPooling2D((2, 2))) # 最大池化层

cnn.add(layers.Flatten()) # 展平层

cnn.add(layers.Dropout(0.5)) # Dropout

cnn.add(layers.Dense(512, activation='relu')) # 全连接层

cnn.add(layers.Dense(10, activation='sigmoid')) # 分类输出

cnn.compile(loss='categorical_crossentropy', # 损失函数

optimizer='adam', # 更新优化器并设定学习速率

metrics=['acc']) # 评估指标

history = cnn.fit(X_train, y_train, # 指定训练集

epochs=100,# 指定轮次

batch_size=256,# 指定批量大小

validation_data=(X_test, y_test)) # 指定验证集

cnn.summary()

准确率的提升不大，还是35%左右。而且训练集和验证集之间的准确率，仍然是天壤之别。

8 数据增强（Data augmentation）

在Keras中，可以用Image Data- Generator工具来定义一个数据增强器：

# 定义一个数据增强器, 并设定各种增强选项

from keras.preprocessing.image import ImageDataGenerator

augs_gen = ImageDataGenerator(

featurewise_center=False,

samplewise_center=False,

featurewise_std_normalization=False,

samplewise_std_normalization=False,

zca_whitening=False,

rotation_range=10,

zoom_range = 0.1,

width_shift_range=0.2,

height_shift_range=0.2,

horizontal_flip=True,

vertical_flip=False)

augs_gen.fit(X_train) # 针对训练集拟合数据增强器

网络还是用回相同的网络，唯一的区别是在训练时，需要通过model.fit方法动态生成被增强后的训练集：

history = cnn.fit(

augs_gen.flow(X_train, y_train, batch_size=16), # 增强后的训练集

validation_data=(X_test, y_test),# 指定验证集

validation_steps=20,# 指定验证步长
    
steps_per_epoch=80,# 指定每轮步长
    
verbose = 1,

epochs=50,# 指定轮次  

) # 指定是否显示训练过程中的信息

每个批次的大小设置为16。由于设置了 steps_per_epoch 为80，表示每个训练轮次中会从数据增强生成器中获取80个批次进行训练。

因此，训练集总共增强到了 80*16=1280 个图像。

9保存

from keras.models import load_model # 导入模型保存工具

cnn.save('../my_dog_cnn.h5')# 创建一个HDF5格式的文件'my_dog_cnn.h5'

del cnn# 删除当前模型

cnn = load_model('../my_dog_cnn.h5') # 重新载入已经保存的模型

10卷积神经网络中的各层通道可视化

在卷积神经网络中，层的通道数和层的数量是两个不同的概念。

层的通道数是指每一层神经网络所包含的输入或输出数据的数量，这些数据流经网络的不同层次，用于提取不同的特征映射。通常，每个通道对应一个特定的特征映射或数据流。例如，对于一个RGB图像，如果输入层有3个通道，则每个通道对应于图像的一个颜色通道（红色、绿色或蓝色）。

层的数量通常是指卷积神经网络中不同层次的数量，这些层次由多个卷积层、池化层和全连接层等组成。在卷积神经网络中，每一层都可以执行特定的操作，例如卷积层进行特征提取和过滤，池化层进行下采样，全连接层进行分类等。

因此，要查看一个层的通道数和层的数量，需要查看网络模型的架构。通常，在卷积神经网络的架构中，每一层的通道数和层的数量都会被明确地定义和列出。这些信息可以在网络模型的文档或代码中找到。

根据建立的CNN序贯模型

Model: "sequential_8"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 conv2d_22 (Conv2D)          (None, 148, 148, 32)      896       
                                                                 
 max_pooling2d_22 (MaxPoolin  (None, 74, 74, 32)       0         
 g2D)                                                            
                                                                 
 conv2d_23 (Conv2D)          (None, 72, 72, 64)        18496     
                                                                 
 max_pooling2d_23 (MaxPoolin  (None, 36, 36, 64)       0         
 g2D)                                                            
                                                                 
 conv2d_24 (Conv2D)          (None, 34, 34, 128)       73856     
                                                                 
 max_pooling2d_24 (MaxPoolin  (None, 17, 17, 128)      0         
 g2D)                                                            
                                                                 
 conv2d_25 (Conv2D)          (None, 15, 15, 128)       147584    
                                                                 
 max_pooling2d_25 (MaxPoolin  (None, 7, 7, 128)        0         
 g2D)                                                            
                                                                 
 flatten_8 (Flatten)         (None, 6272)              0         
                                                                 
 dense_16 (Dense)            (None, 512)               3211776   
                                                                 
 dense_17 (Dense)            (None, 10)                5130      
                                                                 
=================================================================
Total params: 3,457,738
Trainable params: 3,457,738
Non-trainable params: 0
_________________________________________________________________

conv2d_22 (Conv2D)：32个通道
max_pooling2d_22 (MaxPooling2D)：32个通道
conv2d_23 (Conv2D)：64个通道
max_pooling2d_23 (MaxPooling2D)：64个通道
conv2d_24 (Conv2D)：128个通道
max_pooling2d_24 (MaxPooling2D)：128个通道
conv2d_25 (Conv2D)：128个通道
max_pooling2d_25 (MaxPooling2D)：128个通道
flatten_8 (Flatten)：将上一层的多维输入一维化，通道数无意义
dense_16 (Dense)：全连接层，512个神经元
dense_17 (Dense)：全连接层，10个神经元，用于最后的分类输出

from keras.models import load_model # 导入模型保存工具

import matplotlib.pyplot as plt # 导入Matplotlib库

model = load_model('../my_dog_cnn.h5')# 载入刚才保存的模型

# 绘制特征通道

# 获取模型的前50层的输出作为新模型的输出，新模型的输入与原模型相同。  
layer_outputs = [layer.output for layer in model.layers[:32]]  
  
# 获取训练集的第一张图片作为输入。  
image = X_train[0]  
  
# 将图片的形状调整为适合模型输入的形状。这里假设模型的输入是一个150x150的RGB图片。  
image = image.reshape(1, 150, 150, 3)  
  
# 创建新的模型，该模型的输入与原模型相同，但输出是原模型的前32层的激活。  
activation_model = models.Model(inputs=model.input, outputs=layer_outputs)  
  
# 使用新模型对图片进行预测，以得到各层的激活。  
activations = activation_model.predict(image)  



# 获取第八层的激活。  
layer_activation = activations[7]  

plt.matshow(layer_activation[0, :, :, 10], cmap='cool')# 绘制第10个通道的激活  [批次，空即完整高度，空即完整宽度，通道数]

plt.matshow(layer_activation[0, :, :, 50], cmap='cool')

plt.matshow(layer_activation[0, :, :, 80], cmap='cool')

plt.matshow(layer_activation[0, :, :, 100], cmap='cool')# 绘制第100个通道的激活  

plt.matshow(layer_activation[0, :, :, 120], cmap='cool')

# 获取第六层的激活。  
layer_activation = activations[5]  

plt.matshow(layer_activation[0, :, :, 10], cmap='spring')

plt.matshow(layer_activation[0, :, :, 127], cmap='spring')# 绘制第127个通道的激活  

plt.matshow(layer_activation[0, :, :, 40], cmap='spring')

plt.matshow(layer_activation[0, :, :, 20], cmap='spring')

plt.matshow(layer_activation[0, :, :, 30], cmap='spring')
  

# 获取第二层的激活。  
layer_activation = activations[1]  

plt.matshow(layer_activation[0, :, :, 2], cmap='jet')

plt.matshow(layer_activation[0, :, :, 3], cmap='jet')

plt.matshow(layer_activation[0, :, :, 10], cmap='jet')# 绘制第10个通道的激活  

plt.matshow(layer_activation[0, :, :, 20], cmap='jet')

plt.matshow(layer_activation[0, :, :, 30], cmap='jet')

# 获取第一层的激活。  
first_layer_activation = activations[0]  

plt.matshow(first_layer_activation[0, :, :, 2], cmap='viridis')

plt.matshow(first_layer_activation[0, :, :, 3], cmap='viridis')

plt.matshow(first_layer_activation[0, :, :, 10], cmap='viridis')# 绘制第10个通道的激活  

plt.matshow(first_layer_activation[0, :, :, 20], cmap='viridis')

plt.matshow(first_layer_activation[0, :, :, 30], cmap='viridis')# 绘制第30个通道的激活

通过观察这些特征通道的中间激活图就能发现，卷积网络中的各个通道并不是漫无目地进行特征提取，而是各负其责，忽略不相关的噪声信息，专门聚焦于自己所负责的那部分特征，激活各个特征点。这些特征点（也就是小模式）进行组合，就实现了高效率的图像识别。