Single convolutional neural network model for multiple preprocessing of Raman spectra论文翻译

拉曼光谱多重预处理的单卷积神经网络模型

ABSTRACT

拉曼光谱受到噪声、基线漂移和宇宙射线的干扰,这导致了后续光谱分析中的误差。常用的光谱预处理方法,如小波变换(WT)、Savitzky-Golay平滑(SG光滑)、非对称最小二乘(AsLS)只能相应地减少单个干扰项,基于这些传统方法完成预处理需要一系列繁琐的试验。特别是,每个方案只能用于一个特定的数据集。卷积神经网络(CNN)通常用于物体识别、图像超分辨率和自然语言处理。拉曼光谱受到噪声、基线漂移和宇宙射线的干扰,这导致了后续光谱分析中的误差。常用的光谱预处理方法,如小波变换(WT)、Savitzky-Golay平滑(SG光滑)、非对称最小二乘(AsLS)只能相应地减少单个干扰项,基于这些传统方法完成预处理需要一系列繁琐的试验。特别是,每个方案只能用于一个特定的数据集。卷积神经网络(CNN)通常用于物体识别、图像超分辨率和自然语言处理。

1. Introduction

拉曼光谱是一种快速、无损的分析技术,通过分析复杂系统中样品的分子信息,提供样品的指纹信息。它在食品、医药和环境[1–4]等不同领域引起了广泛的关注。然而,拉曼光谱在测量过程中受到由环境、传感器、激光照射和随机宇宙射线引起的噪声和宇宙射线的干扰。需要化学计量学模型从拉曼光谱中提取定量和定性信息。为了增强感兴趣的光谱特征,预处理方法已经被开发出来来去噪、去除基线和纠正峰值[5],如萨维茨基-戈莱平滑(SG平滑)[6]、非对称最小二乘(AsLS)[7]、小波变换(WT)[8,9]、移动平均平滑(MAS)[10]和经验模式分解(EMD)[11]。这些方法都是基于多项式拟合[12,13]、惩罚最小二乘[14,15]、峰值检测和插值方法[16]、小波变换[17]和形态学运算[18]等。上述经典的光谱预处理方法在拉曼光谱预处理中消除噪声、基线漂移和峰值方面效果较好。但一种方法只能处理一个相应的干扰项,一系列方法只能用优化的参数修正训练样本的特定数据集。例如,SG平滑法是一种流行的基于局部最小二乘多项式逼近的光谱去噪窗口的预处理方法。当应用SG平滑时,多项式的阶数和平滑窗口的大小是降噪的关键。AsLS是一种常用的基于惠特克平滑[19]的基线估计方法,而如果没有该方法的经验,对AsLS参数的优化是非常困难的。大多数其他的光谱预处理方法也需要优化不同数据集的参数。为了改进从具有不同特征和干扰的不同样品中采集的光谱,需要一些新的优化参数来进行每个数据集的预处理。更新参数是一个非常繁琐的过程,而在面对复杂的背景干扰时,仍然很难获得处理良好的频谱。开发一种仅需一步就能纠正所有干扰的方法是很有趣的。

深度学习是过去几年机器学习中一个非常热门的研究方向。随着深度学习技术的快速发展,深度学习因其较强的特征学习能力而被广泛应用于自然语言处理[24]、计算机视觉[25]等不同领域。最近,深度学习方法已经被应用到了应用于解决光谱[26]中的背景去除问题。在深度学习普及之前,人工神经网络(ANN)在光谱分析中的分类和回归方面取得了相当满意的预测。人工神经网络的研究灵感来自于生物神经反应模式[27]。早期建立了基于多层感知器(MLP)的神经网络模型,后期开发了反向传播人工神经网络(BP-ANN)。随着理论的发展和计算能力的提高,卷积神经网络(CNN)得到了发展。许多基于CNN的神经网络模型在机器学习方面赢得了一些重要的竞赛,并引起了世界各地[28,29]研究人员的极大关注。CNN是一种带有卷积算法的前馈神经网络,目前已被广泛应用于深度学习方法中[22,30-32]。CNN的优良性能得益于特殊的卷积和池化层的网络结构,使其能够很好地提取和学习光谱数据的特征,并在后续的定性和定量模型[31,33]中获得较高的准确性。此外,CNN可以通过局部连接和权值共享,有效地减少训练权值和误差衰减,加快计算速度,有助于避免多层神经网络的缺陷。

拉曼光谱和近红外(NIR)光谱的分类和拉曼光谱[22,31,32,34]。这些方法还与logistic回归(LR)、k-最近邻(KNN)、随机森林(RF)和反向传播人工神经网络(BP-ANN)模型进行了比较。CNN也被应用于基于光谱建模的变量选择。根据池化层和全连接层[31]的权值选择了频谱的重要区域。从不同样本中采集的拉曼光谱的神经携带共同特征具有高权值。Joel Wahl等人研究了卷积神经网络在拉曼光谱[22]预处理中的应用。宇宙射线、噪声、基线漂移可以在CNN的一个预处理步骤中减少。然而,一种能够纠正从不同物质或复杂体系中收集的光谱的方法仍然可以改进不同化合物混合物的分析。在本文中,我们提出了一种新的方法,仅一步减少多个拉曼数据集的干扰。该方法还能解决拉曼光谱具有不同的变量数和不同仪器采集的不同样本的难题。讨论了由隐藏层提取的光谱的特征。我们的CNN简化了拉曼光谱的预处理步骤,减少了处理时间,为拉曼光谱的预处理方法提供了新的思路。

2. Materials and methods

2.1. Materials

第一个拉曼光谱数据是从含有钙、维生素A和D添加剂的压缩牛奶片糖中收集的。收集了15个光谱,包含2075个变量,范围为250~2339cm−1。该数据集已被用于时变感知矩阵[35]的安全信号传输。

第二个数据集[36]是2020年3月24日至4月10日从武汉(中国)的医院和污水处理厂收集的水样的拉曼光谱。研究了血管紧张素转换酶2@银纳米棒表面增强拉曼散射(ACE2 @SN-SERS),用于检测环境样品中SARS-CoV-2的存在。ACE2 @SN-SERS衬底可以产生强烈的拉曼信号。如果SARS-CoV-2刺突蛋白被ACE2捕获,拉曼信号就会被红移或全光谱改变所猝灭。这可以作为一种检测SARS-CoV-2的方法。第17个水样采用NIR共聚焦拉曼显微镜(HR进化,Horiba,美国),配备785 nm NIR激光源,一个300 l/mm的光栅,和一个半导体冷却探测器(CCD)。所有拉曼光谱均采用50倍物镜(NA = 0.7)、10 s曝光时间和3次积累法获得。激光功率为10 mW。在光谱采集之前,拉曼光谱系统在520cm−1的硅片下进行校准。将原始光谱数据集切割成一个生化细胞指纹区域(900-1800cm−1900个变量),并通过基线校正、小波去噪和向量归一化进行预处理。

第三个拉曼光谱数据集来自番茄,对冻伤番茄和完整番茄进行分类。本实验中使用的仪器为雷尼肖公司,通过拉曼光谱仪,激光光源为785 nm,激光功率为40 mV。曝光时间为1s。本研究中使用的冻伤番茄数据集有50个光谱,有1015个变量(范围为505.716–1631.18 cm−1)。

2.2. Data simulation

考虑到拉曼光谱数据集收集从食物,和环境遭受不同干扰,而干净的光谱数据集将有助于评估CNN模型,从三个数据集的光谱首先预处理等传统方法S-G光滑AsLS和de-spike方法。这些干净的数据可以用于评估优化后的CNN模型的输出。在接下来的步骤中,我们添加了一个高水平的随机噪声、基线和峰值来训练CNN,并且干扰设计得很好,这样可以控制CNN的性能。为了扩展数据集的体积,使用了填充。每个光谱都被随机地向左或向右移动几个波数。具有不同的数量的变量的光谱被排列在一个矩阵中,以便所有它们都可以输入到一个唯一的模型中。数据模拟或增强方法是专门在考虑处理从不同分辨率的仪器中采集的未知样本时而设计的。

数据生成的方案分为以下四个步骤:
(1)目标数据的准备:通过AsLS和SG对滑进行归一化和预处理,以消除基线漂移和噪声。在原始数据集中没有宇宙射线退出。这三个预处理后的数据集都可以作为CNN的目标数据集。这些干扰被添加到这个清理过的数据中,用于CNN的训练。

(2)向每个目标数据集添加基线漂移数据:
在这里插入图片描述
其中,等式1是一个二次函数,x是变量的序列数,y是模拟的基线,a是控制基线水平的随机斜率,b是设置剖面位置的随机截距。这些方程式说明了基线漂移模拟的方法。数据将在等式中显示2为目标数据集,data_b是受基线漂移影响的模拟数据集。

(3)模拟复杂系统并扩大数据集的大小:每个data_b矩阵与其镜像翻转矩阵堆叠,以模拟复杂系统分析中存在未知干扰或各种基线漂移的更复杂情况。然后,我们在堆叠的数据中加入高斯噪声。高斯噪声的标准差为1,平均值为0,高斯噪声的最大值为目标数据最大值的2%。受高斯噪声影响的data_b被称为data_bn。

(4)尖峰的模拟:尖峰(或宇宙射线)是拉曼光谱中的一个随机影响因素。通常,在拉曼光谱的任何其他预处理和建模之前,必须去除它。并不是每个频谱都受到峰值的干扰,因此,CNN很难提取出峰值的特征。在被噪声影响的数据集的随机谱上的随机位置添加峰值。模拟的峰值强度是最大值的一到两倍标准化的光谱。受峰值影响的模拟data_bn为data_bns。

在实践中,当对复杂样品的拉曼光谱进行成像测量,或由工厂生产的不同品牌的光谱仪器进行分析时,化合物有不同数量的变量,并受到不同程度的干扰。当需要对复杂的数据集进行预处理时,一个强大的一步式方法将是有用的。在训练神经网络之前,我们首先排列了不同数量变量的拉曼光谱。

为了使三个数据集的数据矩阵,压缩牛奶片糖,SARS-CoV-2和番茄数据集,有相同数量的变量在波数方向,我们研究了两种方法将拉曼光谱大矩阵4000变量,这是足够长的光谱收集的大多数仪器: (1)我们扩大了变量的数量通过重复谱的波数比目标矩阵变量和光谱复制到末端直到目标变量数;(2)我们在拉曼光谱的末端添加了接近零的变量(或噪声水平上的数字),其变量的数量小于其他变量。与卷积运算中的零填充不同,我们的方法在谱中添加零,将谱对齐到相同的长度,使数据输入和训练方便。模拟的光谱以θ.1中表示。

分别利用压缩牛奶片糖、SARS-CoV-2和番茄样品的拉曼光谱模拟了1万个光谱。这三个模拟数据集都被用于独特的CNN模型训练。经过数据模拟后,每个模拟数据集包含10000个模拟拉曼光谱,共以30000个模拟拉曼光谱作为CNN训练的输入。取三个数据集(22,500个光谱)中的75%作为训练集。三个数据集中剩下的25%(7500个光谱)作为外部测试集。在训练集中,每15个谱(1500个谱)中就有一个作为CNN超参数优化的验证集。子集划分采用Kennard-Stone方法。

2.3. Method

在本节中,我们将描述所提出的基于CNN的深度学习模型。从不同数据集收集的模拟噪声谱保存在一个唯一的矩阵中,作为CNN的输入。CNN通过学习到的滤波器产生一个潜在特征映射的层次结构。在制备的干净光谱的监督下,通过优化CNN中的参数,可以从噪声、基线和峰值中识别和分离出光谱特征。CNN的输出仍然具有相似的输入大小,从输出矩阵的相应元素中剪出原始谱波长变化相似的处理谱。
模拟数据集的扩展数据集具有相似数量的变量。

图2显示了数据集的准备过程和优化后的神经网络的示意图。当我们训练CNN时,我们通过使用一个数据集来优化层数、激活函数的类型、损失函数和优化器。然后,利用混合数据集对滤波器大小、通道数和标准偏差进行优化。

优化后的CNN模型包含4个卷积块和3个转置卷积块。前三个卷积块有一个卷积层(表1中的Conv1到Conv3)对其输入应用卷积,遵循一个激活层、一个退出层和一个Max池化层。最后一个卷积块使用了一个卷积层(Conv4),即一个激活层。最后一个卷积块具有一个激活层和一个退出层。负责特征提取的卷积层算法可以用公式3来解释 .
在这里插入图片描述
其中Xl−1i是l−1层的输出,Klⅈj是l层中大小为i×j的核,bl j是l层中的偏差。Mj是所有的输入数据。Xl j是第l层的输出。在卷积过程中,卷积滤波器在输入频谱中依次移动,同时对Xl−1i中的特征进行加权。光谱中的重要特征将得到较高的权重值。

ReLU是人工神经网络中常用的激活函数,用于激活层,以增加卷积层的非线性。它重新定义了前一层的输出(X_i),通过将所有的负值设置为零,并保留为正值(公式 4)。
在这里插入图片描述Xi是输入的输出,Xi是激活层的输出。这个操作使CNN不再是一个线性堆叠的神经网络,而是一个可以解决非线性问题的网络。

最大池化层用于保留高权重特征,并丢弃低权重特征,以减少数据量。最大池化内核的大小为2×2。在最大池化层中,2×2移动窗口跨输入顺序移动,在窗口中只保持一个最大值。在一个最大池化层之后,输入的大小将被更改为之前的一半。

在我们的CNN中采用了dropout的方法。该方法将当前层中30%的神经元随机设置为零。dropout方法的目的是防止过拟合,减少每个训练时期的参数数量。

在上采样转置卷积块后,对应层中各频谱特征对应的输入变量减少到500×64。与回归模型或分类模型不同,我们的CNN是用来处理拉曼光谱预处理的,因此CNN的输出应该与输入具有相同的大小(切割三个数据集中变量较长的最终光谱)。为了获得与输入大小相似的预处理谱,这里应该使用上采样方法。在CNN中应用转位卷积层来恢复光谱的特征。转置卷积块有三个转置卷积层,每个卷积层都遵循一个激活层。转置的卷积层将通过卷积层和池化层提取的特征数量恢复到原始特征的分辨率。它可以在训练过程的同时进行上采样,并尽量减少特征重采样造成的损失。

Transposed卷积层在使用可学习参数的上采样中起着至关重要的作用。这是一个过程,可以被认为是一个与任何简单的CNN相反的过程,也可以被认为是一个允许恢复这个初始特征图的形状的操作。如此具有转置卷积层的CNN返回一个与输入具有相同宽度和高度的特征图。转置卷积层的滤波器可以像卷积层的滤波器一样被训练来学习样本的特征。转置卷积运算可以被认为是某个卷积相对于其输入的梯度,这通常是转置卷积在实践中实现的方式。

在这里插入图片描述
在这里插入图片描述
转置卷积的原理类似于卷积。卷积滤波器在前一层的传输向量上依次移动,同时对相应层中的特征进行加权。唯一的区别是转置卷积层的核权重与卷积层的权重不同。通过设置输出形状参数,可以控制转置卷积层的输出形状。在换位卷积的更详细的原理可以在[37]中找到。在这项工作中,转置卷积层的目的是将向量的大小恢复到输入的大小(1×4000)。

综上所述,优化后的CNN由4个卷积层(Conv)、7个激活层、3个最大池化层(MaxPool)和3个转置卷积层组成。校正线性单元(ReLU)用于激活。CNN模型将受干扰的光谱映射到目标光谱(输出)。在我们的实验中,输入是模拟光谱(输入向量大小为4000×1)。学习率和历元分别为0.0005和30。对CNN模型进行了15倍交叉验证来训练CNN模型。的超参数隐藏层如表1所示。网络的输入是模拟受噪声、基线漂移和宇宙射线影响的光谱。输出的是预处理后的光谱。在实际应用中,实验光谱将代替模拟数据,并输出预处理后的光谱。为了保证CNN模型的满意性能,将模拟数据打乱为随机序列。然后,将训练集从输入层输入到训练网络中。

损失函数测量在CNN学习中使用不同超参数时的误差。我们比较了在CNN中使用L1_loss和L2_loss作为损失函数的性能(公式。5, 6).
在这里插入图片描述
其中Ii为CNN的输出,Yi为目标谱,R为输出谱的个数。MSE总是正的,当输出接近输入谱时,它接近于零。

优化器是更新和计算影响模型训练和模型输出的超参数,并通过最小化损失函数来接近或达到最优值。Adam优化器,RMSProp优化器,梯度下降优化器,和Adagrad优化器在我们的CNN中进行了比较。这四个优化器通常用于具有不同[38–40]特征的深度网络。本文应用矩阵余弦相似度(MCS)来评估输入谱和输出谱之间的相似性。如等式中所示7、MCS是一种简单而有效的评估两个矩阵之间相似性的方法。一个性能良好的CNN在输出和目标光谱之间具有很高的相似性,并将使MCS接近于1。

在这里插入图片描述
信噪比(SNR)和均方根误差(RMSE)可以在我们的工作中评估CNN模型的性能。RMSE度量训练后的CNN输出数据与目标数据的相似性。信噪比测量信号功率超过噪声功率(Eq.8).
在这里插入图片描述
RMSE被定义为公式9,它给出了输出光谱的残差的分布:
在这里插入图片描述
其中,Yi为输出,Yi为目标谱,R为输出谱的总数。
结构相似度(SSIM)比较了两幅图像[41,42]之间的相似度,在这里,我们将此参数应用于两个矩阵的比较,以评估CNN的输出和目标光谱之间的相似度。SSIM被定义为公式10.
在这里插入图片描述
在这里插入图片描述
在本研究中,CNN是在Python 3.8上构建的,使用GPU的TensorFlow2.2.0GPU加速。该工作站的硬件平台是一台Windows 10笔记本电脑,配备英特尔®核心(TM)i5-9300HCPU,NVIDIA GeForce GTX 1660 Ti GPU,16 GB内存和1 TB SSD。

3. Results and discussions

3.1. Results for the models built for single data set respectively

利用单压缩牛奶片糖、SARS-CoV-2和番茄数据集分别建立预处理CNN模型,以研究超参数的影响,防止数据集之间的相互作用。在本节中,我们研究了超参数,包括层数、滤波器的大小、损失函数、优化器、内核的变化,以及CNN中的通道数。

图SI 1显示了CNN关于处理压缩牛奶片糖数据集的模拟数据、目标数据和输出轮廓的部分例子。首先比较了用不同卷积层数建立的CNN模型。我们将CNN的结果与图SI 1和表SI 1中的目标数据进行了比较。在目标光谱中加入不同水平的基线漂移和随机峰值,以模拟当拉曼光谱采集时的真实情况。当处理单个数据集时,CNN可以很容易地同时去除不同级别的基线和随机峰值。但是,当模型的卷积层数减少到1时,模型就失去了深度学习的优势,不能很好地去除噪声。在CNN模型中使用更多的卷积层可以使输出光谱更平滑。

研究了层数,以优化CNN模型进行光谱预处理。当模型中使用2、3、4层CNN层时,在CNN模型中使用更多的层可以提高神经网络的平滑性能。然而,五层CNN只能给出大量的噪声,很难提供光谱的任何特征。五层CNN的输出也不能减少基线漂移,也不是峰值。四层CNN模型在平滑、基线漂移和去除峰值方面取得了最好的性能。二层和三层卷积模型不能捕获足够的光谱信息细节,而五层模型可能面临过拟合的风险,不能在测试集中给出令人满意的校正。在每个CNN块中,在模型中添加一个池化层,以限制需要优化的参数的规模,同时在增加卷积层数的同时也可能丢失更多的信息。

卷积层的接受域的滤波器大小对于CNN的特征捕获至关重要。大滤波器比小滤波器可以提取更多的光谱信息,而小滤波器可以提供更详细的光谱信息。当滤波器尺寸分别为1×11、1×9和1×7、1×3时,CNN在去除噪声方面表现良好,而具有1×3滤波器的CNN的输出仍然受到噪声的影响。在我们的情况下,1×9滤波器从1×11滤波器的特征中提取细节,1×7滤波器从第二个卷积层中提取细节,最后由1×3滤波器去除低水平噪声,生成输出数据。权值共享是CNN的特点之一,它可以加速CNN的训练,同时也可以防止梯度爆炸。卷积核的大小直接决定了CNN所提取的特征映射的特征。当CNN用于图像检测时,核通常是方阵。在计算机视觉领域,分析的对象是图像,包括三个具有空间特征的通道,但在这项工作中,对象是具有多个变量的光谱。在本文中,我们研究了CNN的滤波器的大小。如图SI 2和表SI 2所示,逐渐收缩的滤波器用于CNN模型的训练。在每次训练中,CNN模型输入一个频谱。在卷积层中使用了一系列的行向量作为滤波器,它们可以在频谱中紧密地移动而不引入意外的噪声。当在CNN中使用平方度量作为滤波器时,使用高成本的计算源对更多的参数进行优化,可能会产生额外的噪声。

在我们的实验中,我们比较了L1_loss函数和L2_loss函数作为CNN的损失函数。在使用L1和L2损失函数时,分别比较了Adam优化器、RMSProp优化器、梯度下降优化器和Adagrad优化器在光谱预处理中的性能。使用不同的优化器和损失函数得到的结果如图SI 3和表SI 3所示。L1_loss或L2_loss提供的结果几乎与所有被调查的模型相似。优化器在优化模型时执行了不同的操作。使用带有L1_loss或L2_loss的Adam优化器的模型获得了满意的处理光谱。应用RMSProp优化器的模型结果也是可以接受的。Adam优化器是基于梯度下降算法的一种变体。将Adam优化器的学习速率限制在一定的范围内,使得当遇到较大梯度的[38]时,权值参数的值相对稳定,没有较大的波动。

为了确保模型能够处理用不同分辨率的仪器收集到的不同数量的变量的光谱,我们通过使用比三个数据集的光谱有更多元素的向量来训练CNN模型。空元素通过两种方式实现,填充零和重复处理后的光谱进行训练或测试(如方法部分所示)。两种排列方法的输出值光谱如图SI 4所示。使用通过重复变量对齐的数据进行训练的CNN的输出如图SI 4(a1-a4)所示。通过在波数方向上添加零来对齐的数据进行训练的CNN的输出如图SI 4(b1-b4)所示。采用信噪比、SSIM、RMSE和MCS等两种方法对输出数据集进行评估。从图SI 4和表SI 4可以看出,CNN训练中填充零和重复变量都可以使神经网络处理不同变量数量的拉曼光谱。所有的输出光谱都被消除了基线漂移、噪声和峰值,并保留了特征峰值。

在训练过程中,利用标准差水平的参数来控制训练过程中卷积层中卷积核的变化范围。设置较大的标准差可以增加卷积核中值的波动程度,并可能给输出谱更大的随机性。如果卷积核的权值变化太小,CNN模型将很难在有限的训练时间内实现这个目标。在我们的实验中,标准偏差设置为0.15,给出了信噪比、SSIM、RMSE和MCS的高分输出。过滤器的通道决定了CNN可以检测到的信息量。更多的通道可以从输入的光谱中提取更多的特征细节,CNN模型可以从干扰中恢复光谱的细节。为了平衡CNN模型的性能与PC计算能力和时间成本,本工作对CNN应用了64个信道。

并将全连通神经网络作为一种经典的神经网络,与本文提出的CNN模型进行了比较。这里构建的完全连接的神经网络有四个完全连接的层,并且与我们构建的CNN有相同数量的神经元。它是PnythorFlow2.2.0上使用GPU加速构建的,运行在与CNN的同一台笔记本电脑上。全连接神经网络的输出没有保留原始光谱的特征峰,并将基线漂移和噪声的特征混合到处理后的光谱中(图SI 5)。另一个问题是,全连接神经网络的训练比CNN的训练花费更多的时间。

3.2. Results for models based on mixed data sets from different samples

在本文中,我们构建了一个CNN,目的是在一步中消除拉曼光谱的基线漂移、噪声和峰值,即使光谱来自不同的物理特征和化学成分。我们将从压缩牛奶片、SARS-CoV-2和番茄中收集到的三个拉曼光谱数据集放在一起,用于本节中CNN模型的训练。通过添加影响因素(添加基线漂移、噪声和峰值;见图1)到三个数据集,目标光谱经AsLS预处理、SG smooth、和de-spike方法。我们的CNN模型是通过将具有影响因素的模拟光谱投影到由AsLS、SG smooth和de-spike方法的组合方法处理的目标光谱上来训练的。

采用MCS、信噪比、RMSE和SSIM方法,通过比较目标数据和我们训练的CNN模型的输出数据来评估性能。在单个数据集的CNN模型部分中,使用类似的CNN超参数作为优化的超参数:4个卷积层、收缩的1个×n滤波器、64个通道、L2_loss函数和Adam优化器。

图3显示了基于从压缩牛奶片糖、SARS-CoV-2和番茄样品中采集的拉曼光谱的模拟。模拟的干涉光谱(红色实线)、目标光谱(黑色虚线)和CNN输出光谱(蓝色实线)如图3所示。噪声、峰值和基线漂移可以在红色实线的光谱轮廓中找到。在光谱中加入高斯噪声,噪声的标准差为最大峰值的2%。宇宙射线是完全随机的和不可预测的。在本文中,每50个波谱中添加一个具有随机波长的随机值的峰值。番茄的拉曼光谱在919、1002、1150和1294cm−1处均有波峰。压缩片乳糖的拉曼光谱分别在860、926、1082、1130、1340、1463和1664cm−1。废水中SARS-CoV-2的拉曼光谱峰值分别为1305、1436、1596、1719、1743、1839和1861cm−1。不同样本的拉曼光谱特征差异很大,用于训练CNN建立稳定鲁棒的良好泛化模型。输出光谱来自训练良好的CNN模型,明显保留了所有的特征峰并消除了干扰。

与番茄和压缩片乳糖的光谱相比,SARS-CoV-2废水样品的光谱有更多的低强度峰,特别是在1700-1800cm−1范围内(见图3 (b)),噪声有时覆盖低强度信号。CNN提供了机会在没有噪声的情况下解决纯光谱,即使光谱只提供与高水平噪声混合的细微信号。

当峰值的强度接近真实的峰值时,它们总是被错误地识别为峰值。从图3可以看出,即使由于噪声和基线漂移的干扰,模拟光谱中随机出现峰值,足够的训练使优化后的CNN模型正确地去除峰值。结果表明,CNN模型可以区分峰值和峰值。

图4显示了通过从CNN的预处理输出谱来比较的信噪比、SSIM、RMSE和MCS。我们还评估了模拟光谱与目标光谱的比较。分别显示了番茄、压缩片状乳糖、SARS-CoV-2废水样本及其混合基质的单一数据集的直方图。直方图的高度显示了为测试集中每个频谱计算的信噪比、SSIM、RMSE和MCS的平均值,误差条表示95%的置信区间。图4中比较了有干扰的模拟数据(蓝条)和CNN输出(红条)。

在这里插入图片描述
在这里插入图片描述
与有干扰的模拟数据相比,CNN输出与目标光谱的比较得到了更高的信噪比、SSIM、MCS和更低的RMSE。CNN输出的SSIM和MCS的平均值接近1.0,说明CNN输出与目标光谱非常相似。输出数据的信噪比远高于模拟数据。低RMSE表示输出与目标数据之间的误差很小。

通过PCA(主成分分析)获得的前三个成分的得分如图SI 6所示。红色的样本来自番茄数据集,蓝色的样本来自SARS-CoV-2水样,绿色的样本来自牛奶片样品。当三个数据集没有受到基线、噪声和峰值的干扰时,它们给出了不同的分布。当加入高水平的基线、噪声和峰值时,散点在图SI 6b中的分布中越来越接近。番茄样本是从冻伤和完整的番茄中收集的,它们可以在处理后的数据和CNN的输出数据中明显地聚类。从结果中,我们可以发现,用传统方法处理的干净数据的样本之间的距离与CNN模型的输出光谱相似。

3.3. The features captured by the hidden layers

为了显示CNN模型的神经元所捕获的光谱特征,可以帮助解释隐藏层中神经元的物理和化学意义。在许多文献中,ANN或CNN模型中的隐藏层总是被认为是一个黑盒子。我们可以可视化隐藏层的特征图,以显示从隐藏层[43]中提取的光谱特征。

对CNN的隐藏层的解释总是具有挑战性的。在深度学习中CNN在计算机视觉中最先进的领域中应用的文献中,深度学习模型隐藏层捕获的成像特征。像素映射可以提供从复杂图像中提取的抽象模式。在某种程度上,我们只是想在CNN的隐藏层中展示这种现象,我们可以以一种直观的方式来可视化这些特征,到目前为止还没有这种客观的进化方法。我们提供的图中的特征可以给出剖面的明显形状,其中一些恰好与基线、噪声和光谱的峰值相关,而无需预处理。

虽然CNN的物理和化学意义不太清楚,但基线、噪声和峰值的特征很容易通过视觉检查观察到,这也通常用于计算机视觉检查输出的分辨率和可视化的深度学习模型。

图5给出了从压缩平板牛奶数据集到CNN模型输入一个频谱时,隐藏层的所有特征。图5(a1、b1、c1、g1)从卷积层1-4输出,图5(a2、b2、c2、d2、e2、f2、g2)从激活层1-7输出,图5(a3、b3、c3)从最大池化层1-3输出,图5(d1、e1、f1)分别从转换后的卷积层1-3输出。

从64通道尺寸为1×11的滤波器的卷积层1中,输出4000(对应谱方向)×64(对应谱特征),如图5(a1)所示。第1层的输出特征给出了尖峰、基线漂移和尖峰的形状,它们如图5(a1)-图5(a3)所示。不同通道中的剖面具有不同的强度,但它们的光谱形状非常相似。卷积核是随机初始化的,使卷积层的输出总是为负值。激活层可以增加数据的非线性度。负值是冗余的,没有物理和化学意义,它们可以在激活层后被去除。

图5(a3)给出了最大池化层的输出,这减少了数据量以加快训练过程。将数据降低到2000×64,同时在池化层的输出中保持了特征频带,在最大池化层1中减少了基线漂移的影响。在卷积层2和激活层2(图5(b1、b2))中,由不同通道获得的轮廓提供了更多不同的形状,以捕捉特征带和干扰的特征。在图5(c2)和(c3)中,为第三层卷积部分输出一些轮廓,删除了基线漂移。

最大池化层3的输出光谱矩阵为500×64。转置的卷积层将光谱矩阵的大小恢复到4000×64。在转置的卷积层1(图5(d1))中,可以明显看出该光谱的最高峰值被保留,其他较低的峰值被隐藏在随机噪声中。在图5(d-f)中,在转置的卷积层中,轮廓的形状逐渐变化为相应的目标光谱。最后一个卷积层过滤低水平噪声,并将信道从64转换为1。激活层7消除了这些负值。在图5(g4)中,比较了带干扰的模拟谱、目标谱和输出谱。输出光谱经过很好的预处理到目标光谱,没有噪声、基线漂移和宇宙射线的影响。

4. Conclusion

我们开发了一个深度CNN模型,并删除了拉曼光谱数据中的所有干扰,包括压缩牛奶片、SARS-CoV-2废水和番茄数据集。该方法只能一步处理拉曼光谱中的噪声、峰值和基线等影响因素,并与具有不同变量数的不同拉曼光谱数据集兼容。CNN的输出几乎相当于通过整合宇宙射线去除、AsLS和SG平滑方法得到的目标光谱。MCS值高达0.9900。与传统的预处理方法相比,CNN简化了预处理步骤,降低了实现目标光谱的时间成本。本工作仍不包括仪器间拉曼漂移的预处理。目前提出的基于CNN模型的深度学习方法可以很容易地扩展到其他光谱预处理中,并对更复杂的情况进行进一步的研究。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值