机器学习实战,探秘卷积神经网络:猫狗识别背后的秘密(实验全流程+代码)

一、实验目的

本实验的目的是基于卷积神经网络对猫狗图片进行分类,并通过调整优化器和学习率等参数,优化网络的训练效果。具体来说,实验的目标有以下几点:

1.图像分类问题:通过训练一个卷积神经网络模型,能够准确地将猫和狗的图片进行分类,使得模型能够正确地区分输入图像中的猫和狗。

2.过拟合问题:通过观察训练集和测试集的正确率差异,判断模型是否发生了过拟合现象。如果在训练集上的正确率高于测试集,即模型在训练集上表现良好但在新数据上表现较差,就需要采取措施减小过拟合问题。

3.优化器选择:选择合适的优化器来优化模型的训练过程。不同的优化器具有不同的优化策略,如梯度下降、动量、学习率衰减等。实验通过比较RMSprop、SGD、Nadam和Adam四种优化器的效果,找到适合该问题的最优优化器。

4.学习率选择:调整学习率来探索模型在不同学习率下的性能表现。学习率决定了参数更新的步幅,过小的学习率会导致收敛速度慢,而过大的学习率可能导致模型无法收敛或在最优点附近震荡。实验通过比较不同学习率下的正确率变化,确定适合该问题的最优学习率。

二、实验原理

1.数据处理

在本实验中,我们使用了Kaggle提供的猫狗数据集。数据预处理是指将原始数据转换为模型能够使用的格式。在本实验中,考虑到电脑内存和训练时间等因素,我们从下载的数据集中选择了部分数据作为训练集和验证集。

2.卷积神经网络

卷积神经网络(Convolutional Neural Network,CNN)是一种特别适用于图像处理任务的深度学习模型,通过多层卷积层和池化层提取图像的特征,并使用全连接层进行分类。

(1)卷积层

卷积层用于从图像中提取特征,它通过将一组卷积核与输入图像进行卷积操作来获取特征图。卷积核可以看作是一种滤波器,通过滑动在图像上进行卷积操作,可以识别出不同的特征,如边缘、纹理等。每个卷积核都会生成一个对应的特征图,这些特征图会捕捉到不同位置的相似特征。

(2)池化层

池化层用于降低特征图的空间大小和参数数量,从而减少计算量。最常见的池化操作是最大池化,它用一个滤波器扫描特征图,选择每个区域中的最大值作为输出。最大池化能够提取出图像的主要特征,同时具备一定的平移和旋转不变性。

(3)全连接层

在卷积层和池化层之后,通常会使用全连接层进行分类。全连接层将特征图展平为一维向量,并通过多个全连接层进行映射和分类。最后一层一般使用softmax函数将输出转换为概率分布,表示输入图像属于每个类别的概率。

3.模型优化

(1)数据增强

数据增强是一种常用的技术,通过在训练过程中对原始数据进行变换和扩充,以增加数据的多样性和数量,从而提高模型的泛化能力和鲁棒性。数据增强可以通过多种方式实现,包括平移、旋转、剪切、缩放、翻转、添加噪声等操作。

(2)优化器

在实验中,通过调整优化器和学习率等参数,可以进一步优化模型的训练效果。优化器是训练神经网络时使用的算法,用于自适应地调整模型中的参数,以减小损失函数的值。常见的优化器包括RMSprop、SGD、Nadam和Adam。不同的优化器具有不同的优化策略,如动量、学习率衰减等。下面是这些优化器的具体介绍:

RMSprop(Root Mean Square Propagation):RMSprop是一种自适应学习率优化算法,通过考虑最近梯度的平方平均来调整学习率。它可以解决标准梯度下降算法中学习率设置不合理的问题,并减少参数更新的方差。RMSprop具有一种保守的更新策略,能更好地适应不同维度的梯度变化。

SGD(Stochastic Gradient Descent):SGD是一种基本的优化算法,它在每次迭代中随机选择一个样本进行梯度计算和参数更新。SGD的优势是计算简单、易于理解,但由于每次只使用一个样本进行更新,可能会导致参数更新的方向不稳定,使优化过程较慢。

Nadam:Nadam是一种整合了Nesterov动量(Nesterov Momentum)和Adam算法的优化算法。Nadam通过引入动量的思想,在更新参数时考虑了之前的动量信息,并结合Adam的自适应学习率方式。Nadam能够在处理非凸问题时更快地收敛,并具有较好的泛化性能。

Adam(Adaptive Moment Estimation):Adam是一种自适应学习率优化算法,结合了Momentum和RMSprop的优点。Adam算法使用了一阶和二阶矩估计来自适应地调整学习率,能够更好地适应不同参数的梯度变化,并在训练过程中保持较低的学习率。Adam通常被认为是一种有效的优化算法,广泛应用于深度学习中。

(3)学习率

学习率是指每次参数更新时的调整幅度,它决定了模型在训练过程中的收敛速度和最终准确性。较小的学习率可能导致收敛速度慢,而较大的学习率可能导致模型无法收敛或在最优点附近震荡。因此,在实验中,通过尝试不同的学习率,可以找到最适合的学习率,以获得更好的模型性能。

在实验中,我们可以观察训练集和验证集的准确率和损失函数随轮次的变化情况,以评估模型的性能和训练效果。通过调整优化器和学习率等参数,可以进一步改善模型的准确性和泛化能力,提高对猫狗图片的分类效果。

三、实验数据收集

数据集选取自网站https://www.kaggle.com/c/dogs-vs-cats/data。该数据集有25000张猫和狗的图片,其中猫和狗各有12500张图片。

四、实验环境

在实验过程中,使用了以下工具和库:

Python编程语言

Jupyter Notebook环境

Numpy库:处理图像数据,进行图像读取、处理和预处理,以及将图像数据转换为卷积神经网络中的张量格式。

Matplotlib库:可视化分类效果(训练集和验证集的准确率和损失函数随轮次的变化情况等)。

TensorFlow:开源深度学习框架,用于构建和训练神经网络模型。在实验中,使用TensorFlow来定义卷积神经网络架构,并进行模型训练和评估。

Keras:深度学习API,用于在TensorFlow等后端上构建和训练深度学习模型。在实验中,使用Keras来构建卷积神经网络架构,并在TensorFlow后端上进行训练和评估。

五、实验步骤

1.数据处理和分析

数据预处理:从25000张图片中选取3000张猫和3000张狗的图像作为训练集,选取1000张猫和1000张狗的图像作为验证集。

# 原始目录所在的路径
original_dataset_dir = "C:\\Users\\Dell\\最优化——神经网络\\dogs_cats\\data\\train"

# # 数据集分类后的目录
base_dir = "C:\\Users\\Dell\\最优化——神经网络\\dogs_cats\\data\\train6"
os.mkdir(base_dir)

# # 训练、验证数据集的目录
train_dir = os.path.join(base_dir, 'train')
# os.mkdir(train_dir)
validation_dir = os.path.join(base_dir, 'validation')
os.mkdir(validation_dir)

# 猫训练图片所在目录
train_cats_dir = os.path.join(train_dir, 'cats')
os.mkdir(train_cats_dir)

# 狗训练图片所在目录
train_dogs_dir = os.path.join(train_dir, 'dogs')
os.mkdir(train_dogs_dir)

# 猫验证图片所在目录
validation_cats_dir = os.path.join(validation_dir, 'cats')
os.mkdir(validation_cats_dir)

# 狗验证数据集所在目录
validation_dogs_dir = os.path.join(validation_dir, 'dogs')
os.mkdir(validation_dogs_dir)

# 将前3000张猫图像复制到train_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1,1001)]
for fname in fnames:
    src = os.path.join(original_dataset_dir+"\\cats\\", fname)
#     print(src)
    dst = os.path.join(train_cats_dir, fname)
#     print(dst)
    shutil.copyfile(src, dst)

# 将下1000张猫图像复制到validation_cats_dir
fnames = ['cat.{}.jpg'.format(i) for i in range(1001, 1501)]
for fname in fnames:
    src = os.path.join(original_dataset_dir+"\\cats\\", fname)
    dst = os.path.join(validation_cats_dir, fname)
    shutil.copyfile(src, dst)

# 将前1000张狗图像复制到train_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1,1001)]
for fname in fnames:
    src = os.path.join(original_dataset_dir+"\\dogs\\", fname)
    dst = os.path.join(train_dogs_dir, fname)
    shutil.copyfile(src, dst)

# 将下1000张狗图像复制到validation_dogs_dir
fnames = ['dog.{}.jpg'.format(i) for i in range(1001, 1501)]
for fname in fnames:
    src = os.path.join(original_dataset_dir+"\\dogs\\", fname)
    dst = os.path.join(validation_dogs_dir, fname)
    shutil.copyfile(src, dst)

部分图像可视化如下:

2d4b66f30110417d8cedf60c0a906d88.png

2.卷积神经网络

(1)构建卷积神经网络模型

我们采用Keras深度学习框架搭建模型,构建了四个卷积层,四个池化层,一个展平层,两个全连接层,其中,卷积层和池化层用于提取特征,展平层为了方便连接全连接层,relu激活函数和sigmoid激活函数用于增加非线性性,全连接层用于输出预测结果。该卷积神经网络结构及该模型的具体参数如下:

  ab86e4b4dc834812a292bb3b687fc569.png

cda0aa9646f0402fbe51780bf0326aaf.png

#网络模型构建
#keras的序贯模型
model = Sequential()
#卷积层,卷积核是3*3,激活函数relu
model.add(layers.Conv2D(32, (3, 3), activation='relu',
                        input_shape=(150, 150, 3)))
#最大池化层
model.add(layers.MaxPooling2D((2, 2)))
#卷积层,卷积核2*2,激活函数relu
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
#最大池化层
model.add(layers.MaxPooling2D((2, 2)))
#卷积层,卷积核是3*3,激活函数relu
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
#最大池化层
model.add(layers.MaxPooling2D((2, 2)))
#卷积层,卷积核是3*3,激活函数relu
model.add(layers.Conv2D(128, (3, 3), activation='relu'))
#最大池化层
model.add(layers.MaxPooling2D((2, 2)))
#flatten层,用于将多维的输入一维化,用于卷积层和全连接层的过渡
model.add(layers.Flatten())
#全连接,激活函数relu
model.add(layers.Dense(512, activation='relu'))
#全连接,激活函数sigmoid
model.add(layers.Dense(1, activation='sigmoid'))

由于每一层的结点数都非常多,因此我们以训练集中的一张图片为例,输入模型后经过第一个卷积层后得到的部分输出进行了可视化:

            2948cec5e4844b2b957ae58e562155dc.png

(2)训练卷积神经网络模型

在训练之前我们设置神经网络模型的编译参数,主要包括损失函数、优化器和评估指标。因为猫狗分类为二分类任务,因此我们选择的是二分类交叉熵损失函数,优化器随机选择的是RMSprop优化器,学习率设置为1e-4。对图像进行预处理,所有图像将按1/255重新缩放,对图像的大小(150x150),每个批次的图像数(20)和类别的模式(二进制标签)进行设定,并创建了训练数据生成器和验证数据生成器,然后训练模型,训练步数为100,同时验证步数为50,训练了30轮。然后对训练集和验证集的正确率和损失进行了可视化:

ea37619779ae4b74ba59b37af38cafcf.png

从图中我们可以看出当训练集的正确率达到100%时验证集的正确率只有80%左右,说明该模型出现了过拟合,因此我们需要采取措施减少过拟合,提高模型的泛化能力。

3.优化

(1)数据增强

为了减少网络的过拟合,我们对训练集的图片进行数据增强,包括对图片进行随机旋转,剪切,随机缩放,平移等操作。

下图是对一张训练集图片做出的转换的示例:

ea2457a762624d829c96405866de3c3d.png

然后将数据增强后的训练集和未数据增强的验证集重新建立模型,训练了30轮,得出了训练集和验证集的正确率和损失:

e92b590fcbeb4f81891b58290af44b83.png

经过数据增强后训练集正确率为78%验证集正确率为80%左右,可以很明显的观察到曲线没有过度拟合了,训练曲线紧密地跟踪验证曲线。

(2)优化器

进行数据增强后,虽然没有过度拟合,但是正确率还是只有80%,为了进一步提高正确率,我们选择不同的优化器训练模型,包括RMSprop、SGD、Nadam和Adam,并将训练轮数提高到100轮,此时的学习率均为1e-4,观察各优化器的性能。

4bc0fa828292418c8da60fb7e8390aab.png

从图中我们可以看出Nadam优化器的效果最好,此时验证集正确率已经达到了90%。而SGD优化器的性能最差,正确率只有55%左右,可能是因为优化算法在参数更新的方式和收敛性上存在差异,Nadam通常更容易找到更优的局部极小值。

(3)学习率

通过(2)我们确定了最有优化器,但是模型的正确率与学习率这个超参数也息息相关,因此我们选用了四个常用的学习率,和最优的Nadam优化器进行训练,每次扩大10倍,可视化如下:

71e2c42837044d9bbb0e379d0d516382.png

从图中我们可以看出当学习率为1e-3时模型的泛化性能最好,验证集正确率达到了95%左右。而步长为1e-2或1e-1时正确率只有50%,模型的预测效果非常差。代码如下:

# 不同的学习率
learning_rates = [1e-4,1e-3,1e-2,1e-1]

# 针对每个学习率创建模型并编译
new_models = []
new_histories = []
for learning_rate in learning_rates:
    optimizer = optimizers.Nadam(learning_rate=learning_rate)
    model = create_new_model()  # 创建新的模型对象
    model.compile(loss='binary_crossentropy',
                  optimizer=optimizer,
                  metrics=['acc'])
    new_models.append(model)
    
    from keras.preprocessing.image import ImageDataGenerator
    datagen = ImageDataGenerator(
      rotation_range=40,
      width_shift_range=0.2,
      height_shift_range=0.2,
      shear_range=0.2,
      zoom_range=0.2,
      horizontal_flip=True,
      fill_mode='nearest')
    train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,)
    # Note that the validation data should not be augmented!
    test_datagen = ImageDataGenerator(rescale=1./255)
    train_generator = train_datagen.flow_from_directory(
            # This is the target directory
            train_dir,
            # All images will be resized to 150x150
            target_size=(150, 150),
            batch_size=32,
            # Since we use binary_crossentropy loss, we need binary labels
            class_mode='binary')
    validation_generator = test_datagen.flow_from_directory(
            validation_dir,
            target_size=(150, 150),
            batch_size=32,
            class_mode='binary')
    steps_per_epoch = len(train_generator)
    validation_steps = len(validation_generator)
    history = model.fit(
      train_generator,
      steps_per_epoch=steps_per_epoch,
      epochs=100,
      validation_data=validation_generator,
      validation_steps=validation_steps
    )
    # 保存历史纪录
    new_histories.append(history)

六、实验结果分析

本次实验我们利用卷积神经网络对猫狗进行了分类,在实验得出了以下结论:

1.过拟合问题

原始的卷积神经网络在训练集上表现出很高的正确率(100%),但在测试集上的正确率却较低(80%),这表明出现了过拟合问题。为了解决这个问题,我们进行了数据增强操作。通过对训练集图像进行旋转、缩放、平移等增强操作,增加了训练数据的多样性,从而缓解了过拟合问题。经过数据增强后,模型在训练集和测试集上的正确率都变成了80%,这是一个可接受的折中结果,但是我们需要更好的模型去优化该问题。

2.优化器的选择

在本次实验中,我们尝试了不同的优化器,包括RMSprop、SGD、Nadam和Adam。结果显示,Nadam优化器在测试集上达到了最好的性能,测试集正确率达到了90%。而SGD优化器表现最差,测试集正确率只有55%。这说明不同的优化器对模型的性能有显著影响,Nadam是一种结合了Nesterov动量和Adam优化器的优化算法。相比于SGD优化器,Nadam具有更快的收敛速度和更好的稳定性。因此,通常在训练深度神经网络时,Nadam优化器可以帮助模型更快地达到更好的性能,选择合适的优化器可以提高模型在测试集上的准确率。

3.学习率的选择

我们进一步分析了不同的学习率对模型性能的影响。通过尝试4个不同的学习率(1e-4、1e-3、1e-2、1e-1),发现最优的学习率是1e-3,模型在测试集上的正确率达到了95%左右。但当学习率为1e-2或1e-1时,模型的测试集正确率一直在50%附近震荡。这表明较大的学习率可能导致模型在参数空间中跳跃过大,进而导致模型无法充分学习,无法有效地收敛到全局最优解或降低训练误差,从而影响了模型在测试集上的准确性。而较小的学习率可能会导致收敛速度过慢,在有限的训练时间内无法充分收敛,导致准确率较低。因此选择合适的学习率,对模型在训练过程中平衡收敛速度和性能表现具有重要作用。

七、总结

综上所述,通过对模型架构、数据增强、优化器和学习率的优化,我们成功提高了猫狗识别模型在测试集上的正确率。这些结论为进一步优化模型性能提供了指导,同时也表明模型优化是一个复杂的过程,需要综合考虑多个因素的影响。在未来的研究中,可以继续探索其他优化方法,以进一步提高模型的性能和泛化能力。

 

全面的保护:单独地运行病毒、黑客软件、广告插件和间谍软件的防护程序会拖慢您的计算机,并难于进行管理,必将带来安全问题。小心那些臃肿的互联网安全套装,它会占用您计算机数百兆的空间。它们的存在是因为商家把现有的产品捆绑在一起。相反, ESET NOD32则设计了一个高效的内核,作为一个单独的、高度优化的引擎,提供统一的安全保护,防止不断的更新病毒、蠕虫、间谍程序的恶意攻击。ESET NOD32拥有先进的ThreatSense ®技术,可通过对恶意代码进行分析,实时侦测未知的病毒,让您时刻走在病毒编写者的前面。 最小的影响:ESET NOD32节约内存和硬盘上的资源,让它们为更重要的应用服务, 本软件只有11M,平均占用23M的内存(根据检测状态会有变化)。Threatsense ®每次更新(包括启发式逻辑和病毒特征码)通常都只有20KB到50KB左右。选择ESET NOD32将更加有效。 最快的扫描:强大的安全防护绝不拖慢计算机。ESET NOD32是用大量的汇编语言编写而成,因其最快的侦测速度和高效的查杀能力而连续地获奖,平均比其竞争对手快3到4倍(源自: Virus Bulletin)。选择ESET NOD32可提升您的计算机性能。 简单的管理:ESET NOD32会自动进行自我更新,如果您是个人使用或是家庭办公的话,您根本不用去管理它。对于大型企业,我们提供了强大的远程分布式的网络管理,管理员可以集中部署、安装、监测和管理成千上万的ESET NOD32工作站和服务器。 最小影响和最快的速度可以得到的最好的保护。ESET NOD32能够多层次地保护你的组织,在桌面、文件服务器和邮件网关。都能为您提供最佳的解决方案。
python+opencv简谱识别音频生成系统源码含GUI界面+详细运行教程+数据 一、项目简介 提取简谱中的音乐信息,依据识别到的信息生成midi文件。 Extract music information from musical scores and generate a midi file according to it. 二、项目运行环境 python=3.11.1 第三方库依赖 opencv-python=4.7.0.68 numpy=1.24.1 可以使用命令 pip install -r requirements.txt 来安装所需的第三方库。 三、项目运行步骤 3.1 命令行运行 运行main.py。 输入简谱路径:支持图片或文件夹,相对路径或绝对路径都可以。 输入简谱主音:它通常在第一页的左上角“1=”之后。 输入简谱速度:即每分钟拍数,同在左上角。 选择是否输出程序中间提示信息:请输入Y或N(不区分大小写,下同)。 选择匹配精度:请输入L或M或H,对应低/中/高精度,一般而言输入L即可。 选择使用的线程数:一般与CPU核数相同即可。虽然python的线程不是真正的多线程,但仍能起到加速作用。 估算字符上下间距:这与简谱中符号的密集程度有关,一般来说纵向符号越稀疏,这个值需要设置得越大,范围通常在1.0-2.5。 二值化算法:使用全局阈值则跳过该选项即可,或者也可输入OTSU、采用大津二值化算法。 设置全局阈值:如果上面选择全局阈值则需要手动设置全局阈值,对于.\test.txt中所提样例,使用全局阈值并在后面设置为160即可。 手动调整中间结果:若输入Y/y,则在识别简谱后会暂停代码,并生成一份txt文件,在其中展示识别结果,此时用户可以通过修改这份txt文件来更正识别结果。 如果选择文件夹的话,还可以选择所选文件夹中不需要识别的文件以排除干扰
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值