Single-Step Preprocessing of Raman Spectra Using Convolutional Neural Networks翻译

基于卷积神经网络的拉曼光谱的单步预处理

DOI: 10.1177/0003702819888949

Abstract

拉曼光谱的预处理一般分为三个步骤:(1)宇宙射线去除,(2)信号平滑,(3)基线减法。我们证明了一个卷积神经网络(CNN)可以使用模拟数据来处理一个操作中的所有步骤。首先,合成光谱是通过随机添加峰、基线、峰和基线与背景噪声的混合以及宇宙射线而创建的。其次,对CNN的合成光谱和已知的峰进行训练。预处理的结果一般比使用基于标准化方法(二次差分、非对称最小二乘、交叉验证)的参考文献所获得的结果质量更高。从105次模拟观测中,91.4%的预测具有较小的绝对误差(RMSE),90.3%的预测提高了质量(SSIM),94.5%的预测降低了信号强度(SNR)功率。CNN预处理对聚乙烯、苯乙烯和乙醇的拉曼光谱产生了可靠的结果。研究结果为拉曼光谱的自动预处理提供了良好的概念证明。

Introduction

拉曼光谱利用由单色光源照射的样品发出的非弹性散射来获取有关分子结构的信息。在现代应用中,拉曼测量通常用化学计量学来进行分析,即用数据驱动的方法来得出关于样品的化学性质的结论。化学计量学方法的一个要求是对数据进行预处理。预处理就意味着将数据转换成一种可以直接比较测量值的形式。拉曼数据的预处理一般是通过应用数值方法在归一化前去除基线、背景、宇宙射线和噪声。3.预处理的重要性不应被低估,因为错误的预处理可能会导致错误的结论。4

所有的拉曼测量都受到背景辐射的影响。背景可能是光源的影响,难以屏蔽样品周围的材料或拉曼散射,如显微镜载玻片、缓冲溶液、培养皿或微流控系统。背景光谱可以单独测量,并通过减法手动去除。一种自动化的替代方法是定义一个损失函数,并应用一种优化算法来最小化背景的影响,如单纯形搜索算法。5

荧光是分子被激发到更高能量的状态并发射这种能量作为光的结果。荧光添加的光作为拉曼光谱基线的偏置。这个基线的形状是平滑曲线,可以比拉曼散射强很多倍。去除基线的一种流行方法是对频谱下的一个多项式进行迭代拟合。6-8另一种有用的方法是应用迭代加权平滑器,它创建一个忽略频谱峰值的曲线拟合。9 Schulze等人发表了一篇关于基线校正方法的综合综述,总结了许多已知的技术,并对它们的优缺点进行了讨论。10

宇宙射线在拉曼光谱中随机出现为尖锐的峰。当来自外部源的能量大于测量信号的粒子击中光谱仪时,宇宙射线就会了。处理宇宙射线最常见的方法是从拉曼光谱中获得多个观测结果,这样就可以被探测到和去除异常值。这个过程可以通过对频谱的第二个差异应用一个阈值来自动化。11

所有的测量值都包括随机变化。拉曼光谱也不例外,因为这个过程本身是随机的,可以用泊松分布来建模。因此,通常做法采用平滑滤波器。应用于拉曼光谱的最标准的光滑剂之一是萨维茨基-戈雷滤光片。12另一个流行的平滑器是惠特克平滑器(非对称最小二乘)与交叉验证的组合。13.交叉验证的目的是为了提高过滤器的客观性。3

近年来,基于多元分析的方法在预处理领域中变得越来越普遍。扩展乘法散射校正(EMSC),是一种方法,执行一个回归对一组光谱观察到一个共同的背景。14其他例子是基线去除使用最小二乘拟合和主成分分析(PCA),15奇异值分解(SVD)通过删除基线分解数据集16和过滤正交信号校正(OSC)通过删除变化的光谱正交的一些参考。17此外,为用于分离光谱成分而设计的带陷阱熵最小化(BTEM)可以用于从背景中分离样本光谱。尽管多变量分析功能强大,但需要许多观察,但不能总是提供,例如当活样本正在调查时提供。

本文提出了一种可以在模拟数据上进行训练的卷积神经网络(CNN)来对拉曼数据进行预处理。深度学习和神经网络在化学计量学中的应用已经被证明对模式识别等问题有用,1,19-21,但据我们所知,还没有对拉曼光谱的全面预处理。Schulze等人介绍了一种基于神经网络的基线校正方法,使用固定峰值位置的单一退化谱,随机基线、噪声和峰值强度变化。该方法优于所有用于比较的方法,10然而,该方法后来被基于PCA的方法22,其中使用不同的网络架构,但相似的训练条件。

我们提出了一个基于随机峰值位置训练的神经网络,具有随机峰值强度、背景和噪声强度。此外,我们建议宇宙射线和随机背景谱包括在训练数据中被删除。该网络应该被训练来处理多个观测,并对观测集进行信号减少,以实现拉曼光谱的最佳恢复。它成为一个更复杂的训练情况,需要更多的训练数据,但结果应该是在训练数据范围内的光谱的一般预测器。提出一种基于模拟数据的方法的原因是,通过实验收集具有所需的变化和样本量的测量数据将是一项巨大的工作。每项测量都必须由专家处理,为监督学习准备数据。处理过程必须是完美的,因为任何系统错误将使用CNN学习。对于模拟数据,监督学习所需的信息是不需要处理的。

Convolutional Neural Network

神经网络是函数或层的组合,它将输入映射到输出。图1显示了一个18层卷积神经网络(CNN),它将一组观察到的拉曼光谱映射到理想的预处理光谱。输入是来自背景yb的原始拉曼光谱,以及背景和样本ybs的混合。如果输入被放置在一个矩阵Y中,其列由yb和ybs的观测值组成,那么一个有N层的CNN的输出可以写成
在这里插入图片描述
其中^ys是理想谱ys的估计,LiðÞ是网络中第个层的函数。来自yb和ybs的观测结果的数量是任意的,但在整个工作过程中分别使用了来自ybs和yb的4个观测结果。

CNN通常由多个隐藏层组成,它们位于输入层和输出层之间。这些图层定义了一个特征提取部分。图1中的CNN通过卷积、批处理归一化、整流线性单元和平均池化层的组合来进行特征提取。特征提取最重要的层是卷积层。它们充当线性滤波器的级联,从输入中提取特征,其中每个卷积层执行一系列具有3个3内核的滤波器。例如,考虑应用于卷积的Sobel核作为梯度算子的离散化。在神经网络中,特征提取的工作原理类似,但这些特征没有被指定,它们是训练的结果。为了加快卷积层的训练,然后进行批归一化和整正线性单元层。批处理归一化层通过计算的方法对数据进行处理
在这里插入图片描述
其中,图层xI的输入的平均值m已被删除,并按标准差s进行缩放,这样输出I就被拟合为N(0,1)分布。批归一化类似于标准正态变量校正(SNV),这是一种常见的预处理技术。24校正线性单位是一个激活或传递函数,它通过设置所有值小于零,等于零来重新定义前一层的输出
在这里插入图片描述
与s型或双曲切线等激活函数相比,它得到了有效的计算和更好的梯度传播。25.平均池化层-通过计算局部算术方法对数据进行降采样。
CNN的一个流程图(从左到右),它将一组拉曼光谱(输入)映射到理想的预处理光谱(输出)。如图所示的输入是来自背景和样本的背景yb和混合信号ybs的一个观测光谱的合成最小集。输入的光谱包括噪声、宇宙射线和一个附加的基线。在实际应用中,合成的光谱被实验数据所取代。接下来,输入通过一系列隐藏层传递,这些隐藏层从原始数据中提取特征(特征提取)。提取的特征用于体系结构的最后一部分回归到输出^,理想情况下与真实样本谱相同。ys中的峰值在输出和输入中都被标记为虚线。
图1中使用的架构显示,特征提取部分之后是一个20%的下降层。该层的目的是将特征提取部分输出的20%随机设置为零,以防止对全连接层的过度训练。全连接层是输出层,它将提取的输入特征映射到输出
在这里插入图片描述
其中W是一个具有权重和获得输出所需维数的矩阵。

为了使CNN按预期的方式运行,网络的所有权值都必须针对特定的任务进行优化。这些权重都是构成CNN各层的所有可训练变量。有多个求解器可以用于训练一个CNN。在这个实现中,我们选择了带有动量的随机梯度下降(SGDM)求解器。SGDM更新了权重,w(l),根据
在这里插入图片描述

其中a被称为学习速率和梯度衰减因子。标量变量a决定了训练的速度,并决定了对前一次迭代的权重的贡献。这个来自之前迭代的权值的贡献是所谓的求解器的动量项。初始权值w(0)通过从高斯分布N (0,0.01)中进行随机抽样。因子E是一个误差函数,它比较估计的输出^ys和理想的输出ys,根据
在这里插入图片描述
其中R是信号ys或^ys中的元素数。因此,我们选择E作为网络中最后一层测量的半均方误差,即图1中的回归层。应用链式规则,通过反向传播估计了误差函数的梯度 ∇ \nabla E
在这里插入图片描述
当数据通过网络得到当前估计值时,可以计算每一层的导数,从 @Y=@w(l)开始,传播到@E=@^ys。当训练一个神经网络时,大量的数据多次通过该网络,从而使该网络收敛到一个一般的预测器.多个信号以小批量的形式通过网络,以减少最终达到局部最小值的可能性,并由于矩阵-矩阵乘法而获得加速。当所有数据都通过网络一次时,就经过了一个时代。表I总结了本实现中使用的CNN的训练变量和层。
在这里插入图片描述

读者可以参考Murphy26来了解关于机器学习的一般信息,或者参考古德费勒等人27来更深入地了解深度学习和神经网络。深度学习和神经网络由于几乎任何编程语言的工具箱而变得越来越有吸引力,比如紧张流(谷歌Brain,于2015年发布)或PyTorch(由脸书的人工智能研究小组开发,于2016年发布)。Matlab(Mathworks公司)在2015b版本中发布了一个深度学习工具箱;Matlab的2018b版本工具箱被用于CNN的实现,但任何编程语言都是合适的。

Simulation of Synthetic Raman Spectra

生成训练数据的方案总结为以下五个步骤,如图2所示。下面列表中描述的不同步骤,其中用斜体书写的部分是为本次调查生成特定数据的选择。这些选择是任意的,可以以不同的方式选择数据中更多的复杂性,例如更多的峰值或基线变化。假定CNN在参数范围内运行。
在这里插入图片描述
(i)生成两个光谱,一个为样本ys,一个为背景yb,每个光谱由一个随机数量的洛伦兹峰组成
在这里插入图片描述
位置x0,尺度g;x0均匀分布在谱域。

在这里插入图片描述
(ii)添加基线:分别为ys和yb生成一个独立的多项式
在这里插入图片描述
x0是1x0 minx0x0 max1,中的局部坐标,以确保多项式在适当的尺度上。阶r从1到10均匀分布。系数(afs,bg,i)和局部坐标的范围x0min,x0,max从U 1,1½.中采样
在这里插入图片描述(iii)混合信号:生成ys和yb的线性组合,以获得一个对样本和背景都有贡献的信号
在这里插入图片描述
P在0.2到0.8之间均匀分布(yb强于ys最多为yb弱的4倍)。
(iv)生成泊松观测值:从泊松分布的观测值,从ybs和yb的强度值。观察结果来自Po tbsybs和Po tbyb,,其中tfbs,bg 2 U½0:5103,1:5103.加入tfbs,bg来模拟采样时间的变化,得到模拟光谱的估计信噪比为3:76:4 dB。
(v)添加宇宙射线:随机的洛伦兹峰(5)与小的g,即非常尖锐的峰。单峰的产生由一个概率为0.5的伯努利分布决定。最多只产生了5个峰。g从高斯分布中采样,Nm¼6,s¼2:5ðÞ。
生成了四组模拟实验。首先是由2个105独立的ybs和yb对组成的训练集。

第二组是由103对验证组成的验证集。验证集用于跟踪训练期间的错误。如果训练误差表明的值明显低于验证误差,则意味着CNN与训练集已经过拟合。

生成了两组数据以进行评估。第一个被标记为评估集,由105对峰组成,每个光谱中有1到8个峰,用于分析在训练集范围内的光谱预测器的性能。

最后一组由50对104组成,其中产生104个独立的ybs和yb对,以增加谱中的峰数,1,2,…,50,以评估预测质量作为谱中的峰数的函数。请注意,训练集中一个频谱的最大峰值值被设置为8个峰值,这意味着预测器被评估为超出其训练范围的数据。

步骤4和步骤5重复4次,对ybs和yb的每个独立光谱配对产生4次噪声观测和可能的宇宙射线(s)观测。观测的数量是任意选择的,但理解的是数组的大小是基2(Y来自等式1的尺寸为210*24)在Matlab中是有益的。

Reference Prediction

使用以下一系列方法定义了参考预测(RP),以与标准预处理工具进行比较,

(i)对于ybs和对ybs和yb的所有观测,通过在第二个差上放置一个阈值,进行
(a)二维检测和宇宙射线去除。11
(b)通过计算所有可用观测值的平均值(本工作中的4个),将光谱降级为单一观测值。
©去噪使用惠特克平滑与二阶惩罚和交叉验证。13个(d)基线减少使用惠特克平滑器,10次迭代与二阶惩罚和¼106.9(
ii)通过计算估计ys
在这里插入图片描述
a>0和任何b。通过最小化的方法得到了这些系数
在这里插入图片描述
利用Matlab的单纯形搜索方法,快速搜索。5
请注意,生成随机谱的仿真方案基本上是针对参考预测提出的方案的逆向工程。每个步骤所选择的方法是由于它们实现简单,而且以前的工作(这里没有显示)表明它们在许多情况下表现良好,适用于自动化预处理。

Performance Evaluation

通过计算均方根误差(RMSE)、结构相似度(SSIM)和信噪比(SNR),分别估计了CNN和RP的性能。RMSE被定义为
在这里插入图片描述
这就给出了一个绝对的误差。在训练期间和训练后对RMSE进行评估。SSIM是一个定义为
在这里插入图片描述
其中,左项称为亮度(取决于平均值m),中间项对比(取决于方差s2),右项称为结构(取决于covariance).28 SSIM,因此是一个从0到1定义的完整质量度量。SSIM为1,表示^ys与ys相同,而0表示没有相似性。SSIM是在全局和局部的评估集上计算的。局部SSIM是在理想光谱中每个峰值周围的15像素范围内计算的。信噪比是信号功率与噪声功率的度量

在这里插入图片描述
其中,计算了光谱强度和变化之和与预测值之间的商。评估可以在结果和讨论部分看到,其中误差分布是从105个独特模拟的评估集估计的。请注意,RMSE以信号范数的百分比和信噪比的分贝(dB)表示。

Experimental Setup

来自聚乙烯、石蜡和乙醇的拉曼光谱被记录为测试光谱,并使用基于模拟数据进行训练的CNN进行评估。实验装置的示意图如图3所示。该装置包括一个倒置显微镜(IX 71,奥林巴斯),一个拉曼光谱仪(三叶草303i,Andor技术)和一个激发波长为532 nm的激光器(DPSS 532激光器,电子技术)。使用了一个40放大显微镜物镜(LUCPLFLN,奥林巴斯)和一个包含二色镜(532 nm二微镜,半色镜)。将样品放置在聚苯乙烯培养皿中,使样品的信号与聚苯乙烯的信号混合。积分时间设置为10 s。包含至少一条宇宙射线的测量值得以保存。原始数据的信噪比估计可以在下一节的结果中找到。每个样品和聚苯乙烯培养皿分别记录每个光谱的4个观察结果.

在这里插入图片描述

Results and Discussion

在某种意义上,CNN可以被视为一种自适应的拉曼通滤波器,预处理后的光谱通过滤波宇宙射线、噪声、背景和基线来获得(参见卷积神经网络和合成拉曼光谱的模拟部分)。cnn通常用于图像分类,将包含特定对象的图像分类到一个正确标记的组中。在这样的应用程序中,对象的周围可以像对象本身一样是决定分类的因素。29在这一点上,不可能确定地说在我们的情况下过滤是如何完成的,例如,它是否对数据中的特定形状或频率做出反应。CNN的性能仍然可以作为一个黑匣子来评估。这是通过插入来自许多(105)独立的混合信号(背景和样本)和背景(yb)的4个观测结果来完成的,这样输出(^ys)与真实样本谱(ys)进行比较,该预测的流程图见图1。然后将相同的光谱观测结果输入参考预测器(参考预测部分)进行比较。然后使用上面的性能评估部分中描述的指标对结果进行评估。

图4a到4i和5a到5i分别显示了CNN和RP在三个模拟和三个测量光谱上的性能示例结果。请注意,CNN所做的预测是如何密切地追踪到真实的光谱的。在模拟和测量的光谱中,CNN获得了显著较低的噪声功率。基线的降低似乎近乎完美。与RP相比,去除背景光谱的精度有所提高,但出现了轻微的残差。在任何一个显示的案例中,宇宙射线对CNN来说似乎都没有问题。CNN确实指出了处理重叠峰的一些困难,其中RP似乎获得了更可靠的拟合。然而,由于RP结果中剩余的噪声量,在没有事先了解峰谱的情况下,这些峰很难识别为实际的峰,而不是噪声的残差。

图4a到4i和5a到5i分别显示了CNN和RP在三个模拟和三个测量光谱上的性能示例结果。请注意,CNN所做的预测是如何密切地追踪到真实的光谱的。在模拟和测量的光谱中,CNN获得了显著较低的噪声功率。基线的降低似乎近乎完美。与RP相比,去除背景光谱的精度有所提高,但出现了轻微的残差。在任何一个显示的案例中,宇宙射线对CNN来说似乎都没有问题。CNN确实指出了处理重叠峰的一些困难,其中RP似乎获得了更可靠的拟合。然而,由于RP结果中剩余的噪声量,在没有事先了解峰谱的情况下,这些峰很难识别为实际的峰,而不是噪声的残差。

实验结果(图。5a到5i)表明CNN一般预测了更高质量的结果。与RP相比,CNN的RMSE较低,SSIM和信噪比较高。只有与石蜡中重叠峰的区分问题相关的结果显示,RP的局部SSIM高于CNN。聚乙烯也会出现重叠峰,在这些峰中,任何一个预测器都很难获得良好的拟合,但基于局部SSIM的CNN有更好的拟合。当比较对评价的结果时与模拟实例的结果相比,实验数据的总体预测质量要低于模拟数据。但请记住,评估的结果并没有与被分析物的真实光谱进行了比较,而是与人工处理的高质量光谱进行了比较。即使是与事实相符的最小偏差,如基线估计中的轻微误差,也会影响结果。原始光谱的信噪比,图。5a~5c,聚乙烯为2:40:6 dB,石蜡为2:60:9 dB,乙醇光谱为3:60:3 dB,即实验实例的信噪比也比模拟实例低。

Conclusion

在本文中,我们已经证明了一个卷积神经网络(CNN),可以在模拟数据上进行训练,以进行高质量的拉曼光谱预处理。由于机器学习的工具箱的广泛可用性,所描述的方法可以在许多编程环境中实现。与基于标准化方法的参考预测相比,CNN显著地提高了预处理能力。考虑到可用于预处理的方法的数量,与参考预测相关的分析相当稀疏,未来的工作应该包括更广泛的比较,特别是与从多元分析中产生的方法。人们应该总是对自动化软件保持警惕,但是预先训练的CNN减少了计算时间和分析人员为分析隐藏在光谱中的分子结构准备数据所花费的时间。这表明,cnn或下一代机器学习工具可以成为准备拉曼数据的有用工具;然而,在这成为现实之前,该方法必须与多元分析进行比较,并根据更复杂的实验数据进行评估,如复合材料或组织。该方法也可能对模拟方案进行适当的改变,以适应类似的预处理挑战的问题,如拉曼光谱,如NIR,FT-IR,质谱和色谱.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值