Application of near-infrared hyperspectral imaging for variety identification of coated maize kerne

近红外高光谱成像在玉米包衣籽粒深度学习品种鉴定中的应用

Abstract

对种子品种的追踪对种子工业具有重要意义。用于种植的玉米粒通常涂有涂层,以保护玉米粒免受真菌和昆虫的侵害。在这项研究中,近红外高光谱成像范围从874纳米到1734纳米被用来确定不同品种的包衣玉米籽粒。对光谱数据进行了提取和预处理。采用Logistic回归(LR)、支持向量机(SVM)、卷积神经网络(CNN)、回归神经网络(RNN)和长短时记忆(LSTM)建立分类模型。
此外,采用主成分分析(PCA)、CNN、RNN和LSTM进行特征提取。将提取的特征融合作为分类模型的输入。在大多数模型的校准、验证和预测集中,使用全光谱、提取特征和融合特征的分类模型获得了90%以上的分类准确率。使用提取特征的模型得到的结果与使用全光谱的模型相当或稍差。使用融合特征的模型均获得了良好的性能,在所有集合中分类准确率均在90%以上。总体结果表明,采用深度学习方法的近红外高光谱成像是识别包膜玉米品种的一种有用的替代方法。

Introduction

玉米是最重要的食物、饲料和生物燃料来源之一。为了满足农业和工业需求,开发了不同的玉米品种。品种是关系种子质量的重要指标。不同品种的种子在内部化学成分、外部形态特征、产量、品质、活力、抗逆性等方面存在差异。玉米种子品种信息的追踪对玉米种子的质量安全检测具有重要意义。

近年来,利用先进的分析技术对种子质量和安全性进行无损、快速、准确的检测是种子工业的主要发展趋势。高光谱成像是一种广泛应用的技术,由于其综合了光谱和成像技术而受到研究人员的欢迎。高光谱成像能够同时获取样品的光谱和空间信息,具有较高的光谱和空间分辨率。它已被证明是一种有效的种子质量和安全检测技术[1]。

利用高光谱成像技术鉴定玉米籽粒品种的各种研究已经报道[2-4]。Wang等人(2016年)使用高光谱成像(308–1105 nm)识别玉米种子品种(三个品种)。提取光谱和图像特征,并使用这些特征建立分类模型,分类准确率超过85%[5]。Huang等人(2016年)使用高光谱成像(400–1000 nm)识别玉米种子品种(17个品种)。同时使用光谱特征和图像特征进行分类,图像特征和光谱特征的结合得到了良好的分类模型,分类精度超过76%[6]。Miao et al.(2018)使用高光谱成像(386.7–1016.7 nm)来识别糯玉米种子的品种(8个品种),基于t分布随机邻域嵌入(t-SNE)的分类模型获得了70%以上的分类准确率和97.5%的分类准确率[7]。Xia等人(2019年)使用高光谱成像(400–1000 nm)识别玉米品种(17个品种)。多线性判别分析用于特征选择。获得了90%以上分类模型的分类精度[4]。在这些研究中,仅对每个品种的少量样品进行了研究。其他研究人员试图使用更多的样本来建立可靠和准确的模型。Zhao等人(2019)利用近红外高光谱成像(874–1734 nm)识别玉米品种。校正集中样本数对分类模型判别能力的影响进行了研究。获得了良好的分类结果,最优模型的分类准确率超过90%,并且分类性能随校准样本数量的不同而不同[3]。Bai等人(2020年)使用近红外高光谱成像(874–1734 nm)识别普通玉米种子(四个品种)和青贮玉米种子(四个品种)。该分类模型对不同品种普通玉米种子和不同品种青贮玉米种子的分类准确率均在90%以上。然而,所有普通玉米种子和青贮玉米种子的分类精度显示出相对较差的结果[2]。

以往的研究主要集中在未包衣玉米籽粒上。玉米种子用种衣剂包衣,以确保种子的活力和萌发。使用高光谱成像技术很少报告包衣种子的质量和安全控制[8]。Fl’emal等人(2017年)使用近红外高光谱成像,参考近红外光谱和超高效液相色谱法,识别小麦、大麦和斯佩尔特种子的农药涂层[8]。

本研究的目的是利用近红外高光谱成像和深度学习方法鉴定包衣玉米种子的品种。

具体目标是:
1) 探索和比较CNN、RNN和长短时记忆(LSTM)与logistic回归(LR)和支持向量机(SVM)在包衣玉米种子品种识别中的性能;
2) 比较主成分分析(PCA)、CNN、RNN和LSTM提取的特征的性能;
3) 探索不同方法提取的特征融合。

Materials and methods

Sample preparation

对红枫707(HF707)、冀单50(JD50)和冀单(JD53)三个玉米品种的种子进行了研究。所有种子均于2018年生产并包衣。对于HF707玉米粒,种子涂有异康唑、吡虫啉、甲霜灵和戊唑醇。对于JD50玉米粒,种子涂有呋喃丹、戊唑醇、甲霜灵和氟二恶酮。对于JD53玉米粒,种子涂有呋喃丹、戊唑醇、甲霜灵和氟二氧酮。对于每个品种,收集1800个完整的包衣种子用于高光谱图像采集。为了获得具有代表性的样本,所有样本均随机采集

图1显示了三种玉米种子的RGB图像。将种子分别放置在黑色平板中,以获取高光谱图像。每个盘子准备90粒种子。在不同的盘中,不使用重复的玉米粒。在RGB图像中未观察到三种包膜玉米籽粒之间的显著差异,并且根据外部特征很难识别包膜玉米的品种。对于每个包衣玉米籽粒品种,将1200、300和300粒籽粒随机分为校准、验证和预测集,每组中无重复种子。总的来说,校准、验证和预测集分别包含3600、900和900个包膜玉米粒。为了建立分类模型,将HF707、JD50和JD53样本的分类标签设置为0、1和2。

Hyperspectral image acquisition

使用光谱范围为874–1734 nm的近红外高光谱成像系统(见文献[2,21])获取高光谱图像。为了获得不可变形且清晰的图像,将相机镜头与样品之间的距离、相机的曝光时间和样品移动速度设置为23.5 cm、3000μs和14 mm/s。采集图像后,根据[2,21]进行图像校正。

Spectral data extraction and preprocessing

为了提取光谱信息,将每个种子定义为感兴趣区域(ROI)。使用Matlab R 2015b(美国马萨诸塞州纳蒂克市Math Works)从每个ROI中提取像素级光谱。然后根据[22]中提出的方法以及三点移动平均平滑对像素级光谱进行去噪。然后将每个ROI内预处理的像素级光谱平均为相应玉米籽粒的光谱。像素级光谱的开始和结束都含有明显的噪声,这些部分被删除,不进行分析。因此,仅对975-1646nm(200个波长变量)范围内的光谱进行去噪和分析。

Classification methods

1、 Conventional methods ——LR and SVM
2、Deep learning methods ——CNN、RNN、LSTM

Feature extraction and feature fusion

主成分分析(PCA)是一种广泛应用的数据降维方法和特征提取方法[2]。PCA将变量线性变换为新的正交变量(称为主成分,PCs)。每个PC是原始变量的线性组合。根据解释的方差对PC进行排序。方差越大,电脑包含的信息就越多。通常,前几个PC包含最有用的信息,这些PC可以作为特征提取。

除了通过PCA提取的特征外,还提取了通过深度学习方法(CNN、RNN和LSTM)学习的特征。对于CNN、RNN和LSTM,卷积层、RNN层和LSTM层、池层和激活功能层将原始数据映射到隐藏层特征空间以获得语义特征,完全连接层将学习到的语义特征映射到样本标签空间。在第一个完全连接的层之前,可以提取每个层的语义特征。

PCA、CNN、RNN和LSTM提取的特征基于不同的原理。在不丢失重要信息的情况下,完全融合这些特征以替换整个光谱是可能的。
这些特征的融合对于包膜玉米的品种鉴定是值得研究的。在本研究中,融合过程是通过直接连接每个样本的特征来实现的。

Model evaluation and software

分类精度被用来评估分类模型的性能,它被定义为正确分类的样本与总样本的比率。PCA、LR和SVM模型在scikit learn(版本0.23.1)上实现。在LR和SVM的参数优化过程中使用了贝叶斯算法[30]。CNN、RNN和LSTM在MXNet框架(亚马逊、西雅图、华盛顿州、美国)上进行。所有数据分析程序均在一台内存为32 GB、SSD为256 GB、GPU为GTX1080Ti、CPU为i7-6850 K的计算机上执行。

Results

Spectral profiles

为了评估每个波长与品种信息之间的关系,对每两个品种之间的每个波长进行方差分析(ANOVA)。差异和平均光谱如图5所示。图5(a)-(c)中的灰色区域表明,两种包膜玉米品种的相应波长存在显著差异(p<0.01)。如图5所示,HF707光谱内的每个波长与JD50和JD53的波长有显著差异。JD50和JD53的光谱相似,在几个波长上存在显著差异。从图5可以看出,三种包膜玉米品种的分类潜力巨大。

Classification models using full spectra

为了评估鉴别性能,使用LR、SVM、CNN、RNN和LTSM(CNN、RNN和LSTM使用Softmax作为分类器)建立全光谱分类模型。全光谱包含200个波长变量。分类结果的混淆矩阵如表1所示。

所有模型均表现出良好的性能,校准、验证和预测集的分类准确率超过88%。LR模型表现出最好的性能。CNN模型的性能优于SVM、RNN和LSTM。RNN和LSTM模型的性能接近。

在不同的分类模型中,三个玉米籽粒品种之间存在误分类现象。JD50和JD53的样本更有可能在校准、验证和预测集中被错误分类。这些结果与图5中的光谱差异一致,即JD50和JD53光谱中的大多数波长相似。尽管样本的光谱显示出显著差异,但所有分类模型未能实现所有数据集100%的分类。

Classification models using feature extraction and feature fusion

PCA、CNN、RNN和LSTM均用于从原始光谱中提取特征。对于主成分分析,每个主成分分析解释了总方差的一定百分比。根据总方差的解释百分比,按降序排列PC。所有PC的解释百分比累加为1,前几个PC可以累加大部分解释百分比。在本研究中,首先选择累计解释百分比超过99.99%的前几个PC,并将这些PC的分数作为提取的特征。

对于CNN,提取GlobalAvgPool层特征;对于RNN,提取最后一层RNN的特征;对于LSTM,提取最后一个LSTM层的特征。提取的特征作为LR和SVM模型的输入,以评估特征提取性能。从性能良好的已建立模型中提取CNN、RNN和LSTM的特征(模型如表1所示)。其中,主成分分析法提取了13个特征,CNN、RNN和LSTM分别提取了32个特征。采用PCA、CNN、RNN和LSTM提取的特征作为分类模型的输入。表2显示了使用提取特征的LR、SVM、CNN、RNN和LSTM模型的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值