文章目录
摘 要
在过去,人们依赖自然分解来处理垃圾,然而如今垃圾的产量已远超自然处理的能力,给人类生活和环境造成了严重威胁。因此,高效的垃圾处理成为了一个迫切且重要的议题。为有效推进垃圾分类,我们需充分利用人工智能的强大动力。技术进步使得人工智能在垃圾自动化分类中的应用变得可行,这不仅开辟了广阔的应用前景,而且带来了显著的社会效益。本研究基于在图像分类任务中表现出优异训练效果的ResNeXt-50 卷积神经网络,探究如何通过提升网络在细粒度特征提取方面的能力,以
进一步提高分类准确率。本文的主要研究内容概述如下:
(1)本文初步探讨了当前深度学习在图像识别算法的技术特点以及垃圾分类图像数据集的发展现状。对 AI Studio 平台上公开的垃圾分类数据集进行综合整理,并在此基础上实施了数据集的扩展,构建了一个更为全面且高效的全类别垃圾分类图像数据集(FCGC-TrashNet),并且进行了细致的数据预处理工作,结合了 RE 数据增强算法和图像翻转、色调调整、随机割裂以及中心裁剪技术,来支持基于图像识别的垃圾分类深度学习模型的训练和验证。
(2)本文通过比对 ResNeXt 不同版本的网络模型性能上的差异,并选择 ResNeXt-50 模型,该模型在检测速度和精度之间取得了更好的平衡,作为后续研究的基础。通过对 ResNeXt-50 模型进行Adam 优化器改进、减少残差块以及更换组归一化技术的改进,以达到减小学习率的波动、计算量和缩短运算时间的目的。实验证明,改进后的模型获得平均达到 92.73%的精度。
(3)为了进一步提高 ResNeXt 垃圾分类模型的性能,本文在残差网络架构中集成了自注意力机制模块,旨在开发一个更准确且高效的垃圾分类模型。通过更换改进型损失函数 FL,解决类别不平衡问题,减少了计算量;引入了 ECA 注意力模块,提升模型对重要特征的关注度,从而实现更高效的特征提取。在此基础进行更换 swish 激活函数和减少残差块的层数构建出了 EFS-ResNeXt 模型,通过实验的各项数据结果证明了EFS-ResNeXt 模型的改进方法可行性,比优化之前的模型平均精度提升了 6 个百分点。
【关键词】:垃圾分类;深度学习;残差网络;ResNeXt;注意力机制
第 1 章 绪论
1.1 研究背景和意义
垃圾,定义为人类日常生活及生产活动中产生的固体废物,由于其庞大的排放量、复杂多变的成分以及明显的污染性、可资源化特性和社会影响,其处理需采取无害化、资源化、减量化及社会化策略。若处理不当,将对环境造成污染,影响公共卫生,造成资源浪费,并威胁生产生活安全,进而损害社会和谐。我国是一个垃圾生产大国,中国目前全国生活垃圾年产量为 4 亿吨左右,并以大约每年 8%的速度递增,中国约有2/3 的城市陷入垃圾围城的困境[1]。仅仅“城市垃圾”的年产量就近 1.5 亿吨。每年年产1.5 亿吨的城市垃圾中,被丢弃的“可再生资源”价值高达 250 亿元,早在 2004 年就超过美国,成为世界第一垃圾制造大国。应对不断增加的垃圾量所带来的挑战,已经成为我国社会广泛关注的问题。控制垃圾的产生环节是营造居民健康和谐生活环境的重要措施。在应对社会发展的新要求的背景下,垃圾的减量化、资源化及无害化处理尤为关键。况且在我国居民产生的垃圾中拥有可回收价值的塑料制品、玻璃制品以及废金属等都具有可回收再利用的经济价值。因此,推行垃圾分类和加强源头减量是提高资源回收效率、推动环境友好型社会建设的必经之路。针对垃圾的处理,西方国家最先进行探索,在处理垃圾的方法上他们处于领先地位[2]。他们通常是先将垃圾送到堆放场,然后实行逐步的治理方法,包括生物降解有机厨余垃圾、焚化可燃易燃垃圾、集中填埋无害垃圾、集中处理有害垃圾。除此之外,西方国家还制定了一些专门的准则政策以及激励办法,让民众熟悉认识到垃圾分类的
意义以及重要性,对正确分类处置垃圾的民众给予一定的奖励,对于违法乱纪者处以罚款等其他惩处办法,经过多年的激励以及政策的落实,西方国家中如德国、奥地利的垃圾回收率都达到 50%以上。
1.2 研究意义
经过对垃圾分类问题的深入调研和相关文献的综合分析,本研究选题展现了显著的理论价值与实践意义。在深度学习和图像识别技术迅猛发展的背景之下,本文通过详尽地分析现阶段理论研究的进展,向垃圾分类领域引入了创新性的方法。面对传统图像识别技术在垃圾分类应用中遇到的种种挑战,本文提出了一个新的理论架构及其相应的实践策略,旨在提升分类的效率和准确度,为垃圾分类技术的发展开辟了新的道路。在现行图像分类技术框架内,针对垃圾图像数据集的独特属性,融合注意力机制以凸显关键特征及淡化次要信息。此外采用改进优化器及损失函数的方法,显著提升了模型在垃圾分类任务上的性能,为垃圾分类提供了更为有效的理论支持和技术方案。
第 2 章 基于改进 ResNeXt50 网络模型的垃圾分类识别方法
本章详细介绍了垃圾分类任务所采用的深度学习模型的设计及其实现过程。首先,要构建了一个高质量的生活垃圾图像数据集,接着对 ResNeXt 网络模型进行了结构上的优化,以满足本次实验对生活垃圾图像分类处理的特定需求。这个过程开始于收集各类生活垃圾的图像,继而仔细筛选这些图像以排除收集过程中的误差,最后进行恰当的分类。下面,将对上述网络模型进行详尽的介绍。
2.1 垃圾分类数据集的获取
在深度学习领域中,自建数据集可以适应特定的任务,许多深度学习任务需要针对特定问题或者领域。现成的数据集可能无法完全覆盖这些特定的需求,可能会导致模型对这些特定数据集过度优化。而自建数据集可以控制数据的独特性和多样性,对于提高模型的泛化能力和处理现实世界复杂性是非常重要的。
依据我国生活垃圾分类指导手册的规范,本文的数据集收集工作涵盖了四个主要类别:可回收物、厨余(湿)垃圾、有害垃圾以及其他垃圾。垃圾图片数据集主要通过下面三种方式获取:
(1)AI Studio 飞桨垃圾数据集
AI Studio 飞桨垃圾数据集是一个公开的垃圾分类数据集,一共 56528 张图片,214个小类,该数据集涉及的垃圾种类众多且种类复杂,其中许多种类在日常生活中较为罕见。此外,在数据集中不同垃圾种类的样本数量分布不均衡,某些种类的图片数量仅有几十张,而另一些则达800多张。针对这一情况,本研究选择了一部分在日常生活中较为常见的垃圾类别,并将这些类别的图片加入到自己的垃圾图片样本集中。
(2)爬虫抓取
编写爬虫程序来抓取各大网站上的图片数据,随后通过接口进行数据清洗并进行人工标注。虽然从技术角度来看,抓取图片是一个相对简便和快速的方法,但面临的一个主要问题是,通过百度和谷歌搜索引擎得到的图片质量参差不齐,这导致实际获取的图片中包含了大量与目标无关的内容。因此,必须对这些海量的图片进行细致的筛选和整理,以确保最终得到的图片数据既准确又有用,所以最后获取的图片数量相对有限。
(3)人工拍摄
通过对比以上两种方式的不足,结合已有的数据集,针对性的拍摄数据集中图像数量少、特征明显的生活垃圾,最后将拍摄的照片加入样本集中。如下表 所示给出了自建数据集 FCGC-TrashNet 中四个大类的垃圾图像分布情况以及图 给出了数据集类别示例图片:
下图所示是自建 FCGC-TrashNet 数据集中不同类别的数量统计图,根据柱状图可以明显看出各个种类的数量分布不均匀,所以之后要进行数据的预处理来扩充其中一些类别的数量来保证样本的均匀性。
(1)统一输入尺寸
在深度学习的领域,卷积神经网络中包含全连接层时,对输入图像的尺寸有特定要求。由 3.1.1 获取图像的方法不同,包括网络爬虫、筛选公开数据集、个人拍摄,导致样本集中图像的大小不一。为了统一处理这些多样的图像尺寸,本文采取了一种预处理策略:首先,将样本集中的图像随机裁剪到 256×256 像素;接着,以这些裁剪过的图像的中心为基准,进一步将图像裁剪到 224×224 像素的统一尺寸。这一步骤确保了所有数据在输入模型前具有一致的尺寸,优化了训练过程的效率和效果。
(2)数据增强
为了应对小样本量导致的识别精度不足的挑战,本研究引入了数据增强的策略。该方法的核心思想是通过利用现有样本数据生成额外的数据,从而丰富数据集。在深度学习领域,数据增强是一种常见的做法,通过对原始数据进行变化和扩展,有效提升模型的泛化性能。在模型训练过程中,本工作采纳了一种综合性数据增强方法,结合了RE(Random Erasing)数据增强算法和图像翻转、色调调整、随机割裂以及中心裁剪[42]。首先,RE数据增强算法通过以一定概率 P 对图像进行随机擦除操作,以此增加数据的多样性。具体而言,对于一批处理中的图像,每张图像被随机擦除的概率是 P,而保持原样的概率则是 1-P。
通过调整随机擦除概率 P、矩形框与输入图像 I 的面积比例上下限以及矩形框的宽高比的上下限可以得到不同的随机擦效果,可视化效果如下图。
2.2 主干网络选取与模型优化
2.2.1 选取主干网络
在图像分类领域,主干网络(backbone)是决定分类性能和训练效率的关键。由于不同的任务和数据集特征各异,挑选适合的主干网络成为根据特定应用场景而做出的重要决策。在这个选择过程中,我们必须综合考虑网络的复杂性、深度、计算效率以及准确度,实现性能与效率的最优平衡。研究实验显示,增加主干网络的层次深度有助于更有效地提取图像中的细节特征,这对于区分复杂图像场景尤为关键。然而,这也要求我们在模型的参数数量、分类准确率等多个方面做出精细的权衡选择。目前,广泛使用的主干模型包括 AlexNet、VGGNet、ResNet 以及 ResNeXt 系列。特别是 ResNeXt,得益于其独特的分组残差结构,它在保持较低参数量的同时实现了高准确率,使得在图像特征提取方面尤为高效,因此在实际应用中得到了广泛采用。通过精心选择和优化主干网络,可以在保证高精度
的同时,提升模型的训练和推理速度,从而在图像分类任务中取得更佳的性能表现。表 3.3 是上述三种常用于分类问题的主干网络在数据集 FCGC-TrashNet 上的测试结果,其中包括 Params、FLOPs、Accuracy 的比较。
从实验结果可以看出,ResNeXt50 在牺牲部分计算量的情况下展现的整体性能更卓越,它的计算量和参数工作量都相对较小,并且在创建的 FCGC-TrashNet 数据集上的测试精度也最高,所以选择 ResNeXt50 作为本文研究的 backbone。
3.2.2 模型优化算法的选择及改进
AdaGrad(自适应梯度算法)是一种自适应学习率优化算法,于 2011年由 Duchi等人提出。它是深度学习和机器学习领域中广泛使用的优化方法之一。AdaGrad 的主要思想是对每个参数根据其历史梯度的平方和进行自适应调整学习率,使得频繁更新的参数的学习率减小,而稀疏更新的参数的学习率则相对较大。这种方法特别适用于处理稀疏数据,能够提高模型的稳定性和性能。RMSProp(Root Mean Square Propagation)是一种自适应学习率优化算法,由Geoff Hinton 在他的课程中提出,旨在解决 AdaGrad 算法中学习率不断递减直至消失的问题。RMSProp 通过引入衰减系数来调整历史信息的累积方式,使得模型能够在非凸优化问题中更加稳定地进行训练。本章中选择了 Adam(Adaptive Moment Estimation)优化器。它是一种基于梯度下降算法的自适应学习率优化器,缝合了上述两种优化器的优点,融合了动量(Momentum)和均方根传播(RMSProp)两种优化算法的核心原理,目的是通过同时计算梯度的一阶矩(即均值)和二阶矩(即方差的未中心化估计)来动态调整每个参数的学习率。具体来说,Adam 优化器构建了两个关键的指数加权平均数:其一是对梯度本身进行的指数加权平均,而另一个则是对梯度平方进行的指数加权平均。这两种加权平均数的应用,旨在为每个参数量身定制学习率的调整,进而达到自适应学习率调整的目标,从而加速神经网络的训练。
3.2.3 残差模块改进
ResNeXt 是 ResNet 的小幅升级更新了 block,本质在 groups 分组卷积,该模型通过一系列平行堆叠的、拓扑结构相同的 blocks 来取代 ResNet 中传统的三层卷积 block,实现了模型性能的提升。在 ResNeXt 网络中传统残差块重复排列并通过并行连接方式来扩展。其传统残差块排列结构如下所示:
改进后的残差模块如下所示:
2.2.4 模型总体设计
本章节将 ResNeXt-50 模型进行全面结构优化,在原有模型基础上进行了创新性的调整。将首层的卷积核的尺寸从原始的7 × 7修改为6 × 6,并将通道数提升从 64 增至128,同时保持步长 stride 为 2 不变。这一改动不仅缩小了模型的首层卷积核尺寸,还缩短了模型的训练时间,并使得模型参数调整更为迅速。这些调整使得网络能够对不同层次的数据进行更精细的分析。此外,还替换了激活函数,并减少了残差块的数量,同时引入了组归一化层,这一系列的优化使得网络在训练过程中达到了更高的精度和更低的损失。为了进一步减少模型参数并防止过拟合,通过移除全连接层,直接将输出传递给 Softmax 函数,以计算各类别的概率值。
第3章 实验设计及结果分析
3.1 实验环境及实验参数的设定
在本研究的实验部分,采用了 Pytorch 深度学习框架进行模型的开发和训练。Pytorch 以其灵活性和动态计算图特性,提供了一个高效且直观的平台来实现复杂的模型架构。为了充分利用硬件资源,实验配置了 CUDA 和 cuDNN 运算平台,这两者分别为 NVIDIA 的并行计算平台和深度神经网络加速库。通过在 GPU 上执行模型训练,能够显著提高计算效率和处理速度,使得大规模数据集上的训练成为可能。这种设置不仅加快了模型训练过程,还提高了实验的迭代速度,从而加速了新模型和策略的探索。
3.2 实验评价指标
为了全面评估所提模型的性能,本研究采用一套参数化的数据评估方法。通过这种方式,我们可以量化模型的效果,并基于这些量化结果对模型进行持续的优化。在众多可能的评估指标中,准确率(Accuracy)被选为主要的性能指标,用以衡量和比较不同模型的效能。准确率定义为模型正确分类数据集中所有图片的比例,是衡量模型分类性能最直观的指标之一。具体来说,准确率计算为正确分类的图片数量除以总图片数量的比例。
该指标提供了一个清晰的量化标准,用于评估模型在整体数据集上的表现。通过将我们模型的准确率与其他模型进行比较分析,我们可以直观地理解模型在相同任务上相对于竞争对手的优势和不足。
3.3 对比实验结果与分析
根据设置的实验参数进行实验验证本章提出模型的有效性。首先进行对比实验 1,在 FCGC-TrashNet 数据集上对不同层数的 ResNeXt 网络模型进行训练,包括ResNeXt50、ResNeXt101 以及 OM-ResNeXt50,结果如下图所示:
根据实验一结果表可知,随着网络层数的增加模型的准确率开始趋于平稳,不再随着迭代次数的更加而提高。而本章提出的 OM-ResNeXt50 模型,通过残差块的改进在网络层数不在堆叠的情况下准确率高于 ResNeXt101的准确率,达到了 92.73%。相较于 ResNeXt101 提高约 3 个百分点;较ResNeXt50 提升了约 4 个百分点。实验二对比不同迭代次数情况下 OM-ResNeXt50 模型的训练效果。根据图 所示,当设置的迭代次数为 500 时,该优化模型的效果最好。
总的来说,随着迭代次数的增加,网络模型的准确率先是快速提升,然后逐渐趋于稳定,最后有过拟合的风险。合理地设置迭代次数,可以帮助找到模型性能和泛化能力之间的最佳平衡点。根据实验二的结果可知当迭代次数设置为500时达到了模型性能和泛化的最佳平衡。实验三最后通过将 OM-ResNeXt50 模型和各种广泛应用的卷积模型进行实验对比其中包括(ResNet50、GoogleNet、VGG16、Inception-v4、ResNeXt50)。
图 展示了六种不同的深度学习网络模型随着训练周期增加的准确率变化。其中 OM-ResNeXt50 的准确率在前几个周期内迅速上升,随后增长速度放缓,但是总体趋势仍是向上的,在 20 个周期时达到约 92%的准确率。根据三组实验分别展示展示了优化模型 OM-ResNeXt50 与不同层数的主干网络的
对比;在不同迭代次数下的准确率变化以及常用模型间的对比,最终得出结论本章对ResNeXt50 的改进方法是可行的。
3.4 消融实验结果与分析
为了验证本章各种改进方法的有效性,消融实验旨在探究模型的各个部分对于模型性能的影响。本章消融实验设计如下表 所示,其中 RexNeXt50-C 表示减少残差块后的模型;GN 表示添加了组归一化层;A-Adam 表示使用改进后的优化器。A 模型作为基准模型,B 模型为在基准模型基础上更换 GN 层;C 模型为在基准模型 A 上改进优化器;D 模型则为本章的改进模型 OM-ResNeXt50。
对于上述四个模型在同一设备上的 FCGC-TrashNet 数据集上进行训练,然后分别
统计不同模型对于分类的准确率。实验结果如下表。
从表 中准确率结果可知,使用改进 A-Adam 优化器或者添加组归一化层都能提升
一定幅度模型的准确率,却都没有达到 D 模型的效果。因此本章所提出的综合改进办
法对模型效果提升是有效的。
3.5 本章小结
这一章首先通过描述公共数据集的局限性来说明自建数据集的重要性,根据我国
垃圾分类的标准以及对现有的垃圾数据集进行取样,然后通过爬取网站以及自行拍摄
的方式构建了 FCGC-TrashNet 数据集,之后通过数据预处理包括统一输入尺寸和数据
增强的方式来完善数据集。创建完数据集后,在此基础上通过对比模型的试验确定选
择 ResNeXt50作为模型优化的主干网络,之后通过优化器 Adam的改进、修改卷积层、
更换组归一化技术、添加一层组归一化层来对 ResNeXt50 模型进行总体改进得到最终
的 OM-ResNeXt50 模型,最后经过在自建数据集上的训练得出实验数据,结果显示对
模型的改进是有效的,提升了垃圾分类的准确率。本章提出的 OM-ResNeXt50 模型比
基础 ResNeXt50 模型提升了近 5 个百分点。
第 4 章 总结与展望
4.1 本文总结
本文首先综述了国内外生活垃圾分类的社会背景及深度学习算法在此领域的最新研究动态。鉴于生活垃圾分类面临的诸多挑战与效率瓶颈,本文将深度学习技术在图像识别方面的应用作为研究重点,深入探讨了运用先进深度学习理论于图像分类问题的潜能与策略。通过实施基于经典卷积神经网络模型的实验分析,对比了不同模型在处理垃圾分类任务上的性能表现,并针对所选模型,通过集成注意力机制等创新性技术进行改进,旨在增强网络的泛化性能和降低过拟合倾向,从而有效提升了分类精度
与处理效率。基于此研究框架,归纳出以下几项主要研究工作内容:
(1)学习调研。全面分析了国内外在应用深度学习技术于垃圾分类领域的最新进展,以及目标检测算法的发展趋势和深度学习技术的当前研究态势。通过对图像分类、目标检测等核心技术的细致研究与学习,为之后的研究工作打下理论与技术基础。
(2)构建垃圾图像数据集。在现实生活中,对应于同一种垃圾会产生不同的形态,而且垃圾的种类也日益增多。鉴于此,本文不仅对现有垃圾图像数据集进行了详细整理,而且考虑到现有数据集的局限性,还特别构建了一个专注于生活垃圾图像数据集FCGC-TrashNet。此外,本文还对不同的图像数据集进行了细致的预处理工作,结合了RE 数据增强算法和图像翻转、色调调整、随机割裂以及中心裁剪。通过这些技术获取一个更完善的数据集,来更好的支持模型的训练。
(3)改进残差网络模型的提出。在自建数据集以及进行数据预处理的基础上,通过模型对比选择 ResNeXt50模型作为主干网络进行后续改进。通过对 Adam优化器进行改进,减小学习率的波动;减少残差块的数量来达到减少计算量和缩短运算时间的效果;更换组归一化层。一系列的改进方法来获得更高的精度和更低的损失。实验表明改进后的模型效果明显在数据集上的准确率达到了 92.73%。
4.2 研究展望
本研究通过对当今国内外的垃圾分类状况充分研究调研,结合目前的人工智能领域大热的现状,考虑将深度学习应用于垃圾分类领域,之后通过对传统网络进行使用新技术的改进,在垃圾图像分类的效率与准确度方面均实现了超越传统方法的显著提升,这为深度学习在垃圾图像分类领域的后续研究与实际应用奠定了稳固的基础。然而,本项研究尽管取得了一定的成果,但在个体研究层面仍然存在一些局限性和不足之处:
1、技术与硬件的限制。考虑到个人技术水平和计算资源的限制,未来的研究还需要关注如何在现有硬件配置下优化算法性能,或探索更高效的算法实现,以克服这些限制,确保研究工作的顺利进行。
2、数据集的拓展和丰富。为了增强模型的泛化能力,后续工作将继续致力于收集更多种类的生活垃圾图像数据。目前虽然基于现有的开源图像数据集进行了数据扩充操作,垃圾的种类会随着发展更加繁多。因此,将通过拓展数据集来实现对更广泛垃圾类型的全面识别,为模型训练提供更为丰富的数据支持。
3、模型的进一步优化。改进残差网络结构和引入注意力机制的方法,在当前垃圾图像上已展现出良好的识别性能。未来,为了更贴近现实应用场景,将不断引入最新技术进行深入研究,进一步验证和优化算法的有效性。
4、算法模型的实际应用落地。研究的最终目标是将所开发的垃圾分类技术应用于实际场景中,提高垃圾分类的效率和准确性。因此,将探索算法模型的实用化途径,以实现技术成果的转化和应用。
致谢
我衷心感谢所有在研究生学习和论文撰写过程中给予我支持和帮助的人。我要特别感谢我的导师对我的论文工作给予了无私的指导,给予了我许多宝贵的建议。她严谨的学术态度和对研究工作的执着追求,将是我今后学习和工作中最宝贵的财富。我要感谢参与本研究工作、提供帮助和建议的每一位老师和同学,感谢学院提供的研究平台和资源,让我有机会进行科学研究和学术探索。我还要感谢我的家人。他们对我的学业和生活给予了无条件的支持和鼓励,是他们的理解和爱,使我能够专心于我的研究工作,无论遇到多大的困难和挑战,都能坚持下去。感谢所有帮助过我的人,是你们让这段旅程变得更加精彩和有意义。祝各位前程似锦、幸福美满。