Understanding and Implementing LeNet-5 CNN Architecture

AcceptGo

已于 2022-04-02 20:42:48 修改

阅读量171

点赞数

文章标签： cnn 深度学习神经网络

于 2021-08-30 12:23:12 首次发布

本文链接：https://blog.csdn.net/AcceptGo/article/details/119991709

版权

本文介绍了卷积神经网络的基础，重点讲解了经典的LeNet-5模型，包括其结构和工作原理。通过TensorFlow2.0和Keras库详细展示了如何构建并训练LeNet-5模型，用于MNIST数据集的手写数字分类任务。经过训练，模型在测试集上取得了超过98%的准确率。

摘要由CSDN通过智能技术生成

一、INTRODUCTION

LeNet是在1998年由Yann LeCun, Leon Bottou, Yoshua Bengio, and Patrick Haffner. 的论文Gradient-Based Learning Applied To Document Recognition引入。本文中将介绍原始论文中描述的LeNet-5 CNN架构，并使用TensorFlow2.0来实现。然后，利用构建的LeNet-5 CNN对MNIST数据集执行分类任务。

你将在文章中学到什么？

了解卷积神经网络的构建
深度学习和机器学习中常用术语的关键定义
理解LeNet-5 CNN
使用 TensorFlow 和 Keras 实现神经网络

二、卷积神经网络（CNN）

卷积神经网络是用于解决与图像相关任务的神经网络架构的标准形式。目标检测、人脸识别、姿态估计等任务的解决方案都是CNN 架构的变体。

CNN 架构的一些特性使它们在许多计算机视觉任务中更加出色：

Local Receptive Fields（局部感受野）
Sub-Sampling（下采样or子采样）
Weight Sharing（权重共享）

三、LeNet-5

LeNet-5 CNN架构有七层，包含3个卷积层、2个下采样层、2个全连接层。如下：

在这里插入图片描述
（1）第一层是输入层，不具备学习能力。输入层被构建为接受32x32大小的输入，这是传递到下一层图像的尺寸。而MNIST 数据集图像的尺寸为 28x28。为了使 MNIST 图像维度满足输入层的要求，对 28x28 图像进行填充。

（2）将使用的灰度图像像素值从 0 到 255 归一化为 -0.1 到 1.175 。这样做是为确保这批图像的平均值为 0，标准差为 1，以减少训练时间。在下面使用 LeNet-5 CNN的图像分类任务中，我们将标准化图像像素值为0 到 1 之间的值。

（3）LeNet-5 架构还使用两种类型的层：卷积层和子采样层。

Convolutional layers
Sub-sampling layers

卷积层用"Cx"标识，子采样层用"Sx"标识，其中"x"是该层在架构中的顺序位置。 "Fx"用于识别全连接层。这种识别方法可以在上图中看到。

（4）第一层卷积层 C1 产生 6 个特征图作为输出，核大小为 5x5。核（或滤波器)是包含权重值与输入值卷积过程中使用的权重值的窗口名称。 5x5 也表示卷积层内每个单元或神经元的局部感受野大小。第一个卷积层产生的六个特征图的尺寸为 28x28。

（5）子采样层"S2"跟在"C1"层之后。 "S2"层将它从前一层接收到的特征图维度减半；这通常称为下采样。

（6）"S2"层还产生了 6 个特征图，每个特征图对应于从前一层作为输入传递的特征图。

总结每一层的主要特征如下表：
在这里插入图片描述

四、LeNet-5 CNN TensorFlow实现

TensorFlow：一个用于实施、训练和部署机器学习模型的开源平台。
Keras：一个开源库，用于实现在 CPU 和 GPU 上运行的神经网络架构。
Numpy：使用 n 维数组进行数值计算的库。

（1）首先导入这些库：

import tensorflow as tf
from tensorflow import keras
import numpy as np

（2）接下来使用Keras库加载MNIST数据集，我们将数据集划分为测试集、验证集和训练集。

将数据集中图像像素范围从 0-255 归一化到 0-1。

(train_x, train_y), (test_x, test_y) = keras.datasets.mnist.load_data()
train_x = train_x / 255.0
test_x = test_x / 255.0
train_x = tf.expand_dims(train_x, 3)
test_x = tf.expand_dims(test_x, 3)
val_x = train_x[:5000]
val_y = train_y[:5000]

上述代码中，扩展了训练集和测试集的维度。原因是在训练和评估阶段，网络期望图像分批呈现；额外的维度代表一个批次中的图像数量。

（3）以下是基于 LeNet-5 神经网络的主要部分：
Keras 提供了实现分类模型所需的工具。 Keras 提供了一个 Sequential API，用于将神经网络各层相互叠加。

lenet_5_model = keras.models.Sequential([
    keras.layers.Conv2D(6, kernel_size=5, strides=1,  activation='tanh', input_shape=train_x[0].shape, padding='same'), #C1
    keras.layers.AveragePooling2D(), #S2
    keras.layers.Conv2D(16, kernel_size=5, strides=1, activation='tanh', padding='valid'), #C3
    keras.layers.AveragePooling2D(), #S4
    keras.layers.Flatten(), #Flatten
    keras.layers.Dense(120, activation='tanh'), #C5
    keras.layers.Dense(84, activation='tanh'), #F6
    keras.layers.Dense(10, activation='softmax') #Output layer
])

首先将tf.keras.Sequential类构造器的一个实例赋值给变量lenet_5_model.
在这个类构造器中，定义模型中的各层。

其中C1层通过如下定义：

keras.layers.Conv2D(6, kernel_size=5, strides=1, activation='tanh', input_shape=train_x[0].shape, padding='same')

可以看到，使用tf.keras.layers.Conv2D 类来构建网络中的卷积层。

其中参数activation为激活函数，它是神经网络的一个组件，它在网络中引入非线性。使神经网络具有更强的表示能力。其余卷积层也类似。

在介绍 LeNet-5 架构的原始论文中，使用了子采样层。在子采样层中，取落在 2x2 池化窗口内的像素值的平均值，然后将该值与系数值相乘。最后添加一个偏差，这些操作都是在未应用激活函数前完成。
但在我们实现的 LeNet-5 神经网络中，使用了tf.keras.layers.AveragePooling2D 构造器。不传递任何参数到构造函数，因为在调用构造函数时会初始化所需参数的一些默认值。要清楚，网络中池化层的作用是特征图在网络中移动时对特征图进行下采样。

（5）同时，还有两种类型的层：Dense layer 和flatten layer。

flatten层是使用类构造器tf.keras.layers.Flatten来创建。该层的目的就是将其输入转换为可以输入后续密集层的一维数组。

密集层在每层内具有指定数量的单元或神经元，F6 有 84 个，而输出层有 10 个单元。最后一个密集层有 10 个单元，对应于 MNIST 数据集中的类别个数。输出层的激活函数是 softmax 激活函数。

Softmax：一种激活函数，用于导出输入向量中一组数字的概率分布。 softmax 激活函数的输出是一个向量，其中它的值集表示类/事件发生的概率。向量中的值全部加起来为 1。

（6）然后编译构建模型

lenet_5_model.compile(optimizer='adam', loss=keras.losses.sparse_categorical_crossentropy, metrics=['accuracy'])
lenet_5_model.fit(train_x, train_y, epochs=5, validation_data=(val_x, val_y))

Keras 通过之前实例化的模型对象提供了"编译"方法。 compile函数可以实际构建所需要实现的模型，并具有一些附加特性，例如损失函数、优化器和指标。

为训练网络，我们利用损失函数计算网络提供的预测值与训练数据的实际值之间的差异。

通过优化算法 (Adam) 伴随损失值，促进网络内权重的改变次数。动量和学习率等支持因素提供了使网络训练收敛的理想环境，从而使损失值尽可能接近于零。
在训练期间，我们还将在每个世代之后使用之前创建的验证数据集验证我们的模型。

lenet_5_model.fit(train_x, train_y, epochs=5, validation_data=(val_x, val_y))

（7）训练后，会发现模型达到了 90% 以上的验证准确率。但是为了更明确地验证模型在未知数据集上的性能，将模型应用在测试数据集上评估训练模型。

lenet_5_model.evaluate(test_x, test_y)

在这里插入图片描述
可以看到，模型训练后，在测试数据集上达到 98% 的准确率，对于一个简单的网络，已经是很不错的结果。

附录

代码如下：

import tensorflow as tf
from tensorflow import keras
import numpy as np

(train_x, train_y), (test_x, test_y) = keras.datasets.mnist.load_data()
train_x = train_x / 255.0
test_x = test_x / 255.0
train_x = tf.expand_dims(train_x, 3)
test_x = tf.expand_dims(test_x, 3)
val_x = train_x[:5000]
val_y = train_y[:5000]

lenet_5_model = keras.models.Sequential([
    keras.layers.Conv2D(6, kernel_size=5, strides=1, activation='tanh', 
                        input_shape=train_x[0].shape, padding='same'),  # C1
    keras.layers.AveragePooling2D(),  # S2
    keras.layers.Conv2D(16, kernel_size=5, strides=1, activation='tanh', padding='valid'),  # C3
    keras.layers.AveragePooling2D(),  # S4
    keras.layers.Flatten(),  # Flatten
    keras.layers.Dense(120, activation='tanh'),  # C5
    keras.layers.Dense(84, activation='tanh'),  # F6
    keras.layers.Dense(10, activation='softmax')  # Output layer
])
lenet_5_model.compile(optimizer='adam', loss=keras.losses.sparse_categorical_crossentropy, metrics=['accuracy'])
lenet_5_model.fit(train_x, train_y, epochs=5, validation_data=(val_x, val_y))

lenet_5_model.evaluate(test_x, test_y)