水果检测系统

最新推荐文章于 2024-12-31 18:30:00 发布

JFS1024

最新推荐文章于 2024-12-31 18:30:00 发布

阅读量1.2k

点赞数 30

文章标签： python pyqt 毕业设计 pytorch 神经网络目标检测计算机视觉

本文链接：https://blog.csdn.net/JFS1024/article/details/139916667

版权

前言

背景

水果在日常生活中是非常重要的食物，不同种类的水果具有不同的营养价值和市场需求。然而，在大型超市、市场和水果分拣中心，快速且准确地识别和分类水果是一个非常重要的任务。传统的手工分类不仅耗时耗力，而且容易出错。因此，利用机器学习和计算机视觉技术实现自动化的水果识别和分类具有重要的实际意义。

目的

本项目的目的是开发一个基于深度学习的水果检测系统，能够自动识别和分类不同种类的水果。通过训练一个深度学习模型，结合PyQt5图形用户界面（GUI），实现对单张图片、批量图片和视频流的水果检测，并最终开发一个用户友好的界面供用户使用。

一、数据来源及预处理

项目详细介绍前往：毕业设计：水果检测系统-CSDN博客

1.1、数据来源

本项目的数据集主要来源于Kaggle平台上公开的水果图片数据集。该数据集包含了多种常见水果的图片，包括猕猴桃、柠檬、石榴、菠萝和西瓜等。

1.2、数据预处理方法

为了确保模型的训练效果和准确性，对数据进行了以下预处理步骤：

图像缩放：将所有图像的大小统一调整为224x224像素，以适应VGG16模型的输入要求。
图像归一化：对图像进行归一化处理，使像素值在[-1, 1]范围内，提高训练的稳定性和收敛速度。
数据增强：采用随机水平翻转、随机旋转等数据增强方法，增加训练数据的多样性，防止过拟合。

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
])

1.3、标注工具和标签格式

由于数据集来自Kaggle，图片已经被预先标注好了。每张图片都对应一个文件夹，文件夹的名称就是该水果的类别。

标签格式：采用文件夹名称作为标签，如'Kiwifruit', 'lemon', 'pomegranate', 'pineapple', 'Watermelon'。
标签编码：在代码中将这些类别转化为数字编码，便于模型处理：

Labels = {'Kiwifruit': 0, 'lemon': 1, 'pomegranate': 2, 'pineapple': 3, 'Watermelon': 4}

二、网络结构说明

2.1、网格结构

在本项目中，采用了预训练的VGG16网络，并在其基础上进行了调整以适应水果分类任务。具体来说，我们修改了VGG16网络的最后一层全连接层，以输出五个类别（猕猴桃、柠檬、石榴、菠萝和西瓜）。

2.2、原始VGG16网络结构

VGG16是一种经典的卷积神经网络结构，包含13个卷积层和3个全连接层，其详细结构如下：

2.3、修改网络结构

为了适应水果分类任务，我们对VGG16网络的最后一层全连接层进行了修改，将其输出改为五个类别。具体调整如下：

全连接层3：将1000个神经元修改为5个神经元，使用Softmax激活函数进行多分类。

model = models.vgg16(weights=None)
num_ftrs = model.classifier[6].in_features
model.classifier[6] = nn.Linear(num_ftrs, len(classes))

选择该结构的原因

迁移学习的优势：VGG16在ImageNet上预训练过，具有较强的特征提取能力。通过迁移学习，可以在较少的数据和时间内训练出性能良好的模型。
实践验证：VGG16已经在多个图像分类任务中取得了优异的表现，其结构简单且效果显著。
实验对比：在初步实验中，我们尝试了其他结构如ResNet和Inception，但由于计算资源有限，VGG16的训练速度和准确性表现更优。

2.4、调整和优化

在基础的VGG16网络结构上，我们进行了以下调整以进一步优化模型性能：

数据增强：通过对训练数据进行随机水平翻转、旋转等数据增强操作，增加了训练数据的多样性，防止过拟合。
调整学习率：采用了1e-4的学习率，结合Adam优化器，使模型能够更平稳地收敛。
增加Dropout：在全连接层增加Dropout层，以减少过拟合，提高模型的泛化能力。

# 设置全局参数
modellr = 1e-4
BATCH_SIZE = 32
EPOCHS = 10
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 数据预处理
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
])

三、深度学习优化与评估

3.1、损失函数

在代码中，使用的是交叉熵损失函数（CrossEntropyLoss）来计算模型的损失。交叉熵损失函数在多分类问题中表现优异，适合处理水果分类任务。

criterion = nn.CrossEntropyLoss()

3.2、超参数调节过程

学习率：最初尝试了1e-3和1e-5，但1e-3导致模型在早期训练阶段震荡较大，而1e-5收敛速度太慢。最终选择了1e-4，效果最佳。
优化器：在实验过程中，尝试了SGD和Adam优化器。SGD的收敛速度较慢，而Adam表现较为稳定，最终选择Adam。
批次大小：批次大小32在性能和内存消耗之间取得了较好的平衡。

modellr = 1e-4
BATCH_SIZE = 32
EPOCHS = 10
optimizer = optim.Adam(model.parameters(), lr=modellr)

不同学习率下的结果：

学习率1e-3：训练初期损失大幅震荡，最终验证集准确率约为70%。
学习率1e-5：训练较为平稳，但收敛速度慢，最终验证集准确率约为75%。
学习率1e-4：训练平稳且收敛速度适中，最终验证集准确率约为80%。

3.3、过拟合现象

在训练过程中，初期模型出现了过拟合现象，即训练集准确率很高，但验证集准确率较低。针对这个问题，采用了以下方法：

数据增强：通过随机水平翻转、旋转等数据增强技术，增加数据集多样性，减轻过拟合。
Dropout：在全连接层加入Dropout层，减小神经元间的依赖，进一步减少过拟合。

梯度消失或梯度爆炸现象在训练过程中未明显出现，主要得益于合理的学习率和Adam优化器的使用。

3.4、模型的效果评估

在测试集上评估模型的最终效果，准确率（Accuracy）

correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        images, labels = images.to(DEVICE), labels.to(DEVICE)
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

accuracy = 100 * correct / total
print(f'Accuracy on the test set: {accuracy}%')

准确率：测试集上的最终准确率为90%左右。

后期优化之后批量图片预测准确率达到：98%

四、框架选择与介绍

4.1、框架选择

本项目采用了PyTorch框架。PyTorch是一个开源的深度学习框架，提供了动态计算图机制，支持GPU加速，易于调试和扩展，广泛用于学术研究和工业界的深度学习项目。

选择PyTorch的原因

动态计算图：PyTorch的动态计算图机制使得模型调试和修改更加直观和方便。
强大的社区支持：PyTorch拥有庞大的社区和丰富的第三方资源，易于获取帮助和参考资料。
灵活性：PyTorch在处理复杂模型和自定义操作时具有较高的灵活性。

4.2、前端实现过程

前端使用PyQt5开发，实现了图像上传、显示和预测功能。主要以下功能：

窗口布局和样式：设置窗口标题、尺寸和背景图片。
用户交互：实现图片上传、显示和预测功能，并在界面上展示预测结果。
图像预处理：上传的图片经过预处理后输入模型进行预测。

class FruitRecognitionApp(QWidget):
    def __init__(self):
        super().__init__()
        self.initUI()

    def initUI(self):
        self.setWindowTitle('水果识别')
        self.setGeometry(100, 100, 1200, 800)
        palette = QPalette()
        background_image = QPixmap("background_image.jpg")
        if not background_image.isNull():
            palette.setBrush(QPalette.Background, QBrush(background_image))
        self.setPalette(palette)

        self.label = QLabel(self)
        self.label.setAlignment(Qt.AlignCenter)
        self.label.setStyleSheet("border: 2px dashed black; padding: 10px; background-color: rgba(255, 255, 255, 150);")

        self.resultLabel = QLabel('预测类别: ', self)
        self.resultLabel.setAlignment(Qt.AlignCenter)
        self.resultLabel.setFont(QFont('Comic Sans MS', 18))

        vbox = QVBoxLayout()
        vbox.addWidget(self.label)
        vbox.addWidget(self.resultLabel)

        self.setLayout(vbox)

最终的界面效果演示:

4.3、框架介绍

我的代码主要使用到卷积神经网络（CNN），递归神经网络（RNN）与生成对抗网络（GAN）主要作为补充说明

1 卷积神经网络（CNN）

优点：

擅长处理图像和视频数据。
具有局部感知和权重共享的特性，参数较少，计算效率高。

缺点：

需要大量标注数据。
对图像的旋转、缩放等变换不够鲁棒。

适用情况：图像分类、目标检测、图像分割等。

2 递归神经网络（RNN）

优点：

适合处理序列数据，如时间序列、文本数据。
能够捕捉序列中的时序信息。

缺点：

训练过程中容易出现梯度消失和梯度爆炸问题。
长期依赖问题，难以捕捉长期依赖关系。

适用情况：自然语言处理、语音识别、时间序列预测等。

3 生成对抗网络（GAN）

优点：

能够生成高质量的图像、音频等数据。
在无监督学习中表现突出。

缺点：

训练过程不稳定，容易出现模式崩塌问题。
需要精细的模型架构设计和超参数调节。

适用情况：图像生成、图像修复、风格迁移等。

这些经典算法和框架在不同任务和数据类型下有各自的优势和适用场景，通过合理选择和调整，可以在实际应用中取得良好的效果。

五、总结

我们的项目基于VGG16模型和PyQt5框架的水果识别系统，结合了先进的深度学习技术和直观友好的用户界面设计。VGG16作为我们选择的深度学习模型，以其在图像识别领域的卓越表现，能够准确地区分不同种类的水果。PyQt5框架则为用户提供了一个现代化的图形界面，使用户能够轻松上传图片并获取即时的识别结果。系统不仅具备高精度的识别能力，还通过优化的用户体验和操作流程，确保了使用者能够快速且便捷地完成水果识别任务。

项目到这里就结束了，如果想要继续学习请前往：毕业设计：水果检测系统-CSDN博客

VGG16模型请前往:

https://www.cnblogs.com/fusheng-rextimmy/p/15452248.html编辑https://www.cnblogs.com/fusheng-rextimmy/p/15452248.htmlhttps://www.cnblogs.com/fusheng-rextimmy/p/15452248.html