拉曼光谱多重预处理的单卷积神经网络模型
ABSTRACT
拉曼光谱受到噪声、基线漂移和宇宙射线的干扰,这导致了后续光谱分析中的误差。常用的光谱预处理方法,如小波变换(WT)、Savitzky-Golay平滑(SG光滑)、非对称最小二乘(AsLS)只能相应地减少单个干扰项,基于这些传统方法完成预处理需要一系列繁琐的试验。特别是,每个方案只能用于一个特定的数据集。卷积神经网络(CNN)通常用于物体识别、图像超分辨率和自然语言处理。拉曼光谱受到噪声、基线漂移和宇宙射线的干扰,这导致了后续光谱分析中的误差。常用的光谱预处理方法,如小波变换(WT)、Savitzky-Golay平滑(SG光滑)、非对称最小二乘(AsLS)只能相应地减少单个干扰项,基于这些传统方法完成预处理需要一系列繁琐的试验。特别是,每个方案只能用于一个特定的数据集。卷积神经网络(CNN)通常用于物体识别、图像超分辨率和自然语言处理。
1. Introduction
拉曼光谱是一种快速、无损的分析技术,通过分析复杂系统中样品的分子信息,提供样品的指纹信息。它在食品、医药和环境[1–4]等不同领域引起了广泛的关注。然而,拉曼光谱在测量过程中受到由环境、传感器、激光照射和随机宇宙射线引起的噪声和宇宙射线的干扰。需要化学计量学模型从拉曼光谱中提取定量和定性信息。为了增强感兴趣的光谱特征,预处理方法已经被开发出来来去噪、去除基线和纠正峰值[5],如萨维茨基-戈莱平滑(SG平滑)[6]、非对称最小二乘(AsLS)[7]、小波变换(WT)[8,9]、移动平均平滑(MAS)[10]和经验模式分解(EMD)[11]。这些方法都是基于多项式拟合[12,13]、惩罚最小二乘[14,15]、峰值检测和插值方法[16]、小波变换[17]和形态学运算[18]等。上述经典的光谱预处理方法在拉曼光谱预处理中消除噪声、基线漂移和峰值方面效果较好。但一种方法只能处理一个相应的干扰项,一系列方法只能用优化的参数修正训练样本的特定数据集。例如,SG平滑法是一种流行的基于局部最小二乘多项式逼近的光谱去噪窗口的预处理方法。当应用SG平滑时,多项式的阶数和平滑窗口的大小是降噪的关键。AsLS是一种常用的基于惠特克平滑[19]的基线估计方法,而如果没有该方法的经验,对AsLS参数的优化是非常困难的。大多数其他的光谱预处理方法也需要优化不同数据集的参数。为了改进从具有不同特征和干扰的不同样品中采集的光谱,需要一些新的优化参数来进行每个数据集的预处理。更新参数是一个非常繁琐的过程,而在面对复杂的背景干扰时,仍然很难获得处理良好的频谱。开发一种仅需一步就能纠正所有干扰的方法是很有趣的。
深度学习是过去几年机器学习中一个非常热门的研究方向。随着深度学习技术的快速发展,深度学习因其较强的特征学习能力而被广泛应用于自然语言处理[24]、计算机视觉[25]等不同领域。最近,深度学习方法已经被应用到了应用于解决光谱[26]中的背景去除问题。在深度学习普及之前,人工神经网络(ANN)在光谱分析中的分类和回归方面取得了相当满意的预测。人工神经网络的研究灵感来自于生物神经反应模式[27]。早期建立了基于多层感知器(MLP)的神经网络模型,后期开发了反向传播人工神经网络(BP-ANN)。随着理论的发展和计算能力的提高,卷积神经网络(CNN)得到了发展。许多基于CNN的神经网络模型在机器学习方面赢得了一些重要的竞赛,并引起了世界各地[28,29]研究人员的极大关注。CNN是一种带有卷积算法的前馈神经网络,目前已被广泛应用于深度学习方法中[22,30-32]。CNN的优良性能得益于特殊的卷积和池化层的网络结构,使其能够很好地提取和学习光谱数据的特征,并在后续的定性和定量模型[31,33]中获得较高的准确性。此外,CNN可以通过局部连接和权值共享,有效地减少训练权值和误差衰减,加快计算速度,有助于避免多层神经网络的缺陷。
拉曼光谱和近红外(NIR)光谱的分类和拉曼光谱[22,31,32,34]。这些方法还与logistic回归(LR)、k-最近邻(KNN)、随机森林(RF)和反向传播人工神经网络(BP-ANN)模型进行了比较。CNN也被应用于基于光谱建模的变量选择。根据池化层和全连接层[31]的权值选择了频谱的重要区域。从不同样本中采集的拉曼光谱的神经携带共同特征具有高权值。Joel Wahl等人研究了卷积神经网络在拉曼光谱[22]预处理中的应用。宇宙射线、噪声、基线漂移可以在CNN的一个预处理步骤中减少。然而,一种能够纠正从不同物质或复杂体系中收集的光谱的方法仍然可以改进不同化合物混合物的分析。在本文中,我们提出了一种新的方法,仅一步减少多个拉曼数据集的干扰。该方法还能解决拉曼光谱具有不同的变量数和不同仪器采集的不同样本的难题。讨论了由隐藏层提取的光谱的特征。我们的CNN简化了拉曼光谱的预处理步骤,减少了处理时间,为拉曼光谱的预处理方法提供了新的思路。
2. Materials and methods
2.1. Materials
第一个拉曼光谱数据是从含有钙、维生素A和D添加剂的压缩牛奶片糖中收集的。收集了15个光谱,包含2075个变量,范围为250~2339cm−1。该数据集已被用于时变感知矩阵[35]的安全信号传输。
第二个数据集[36]是2020年3月24日至4月10日从武汉(中国)的医院和污水处理厂收集的水样的拉曼光谱。研究了血管紧张素转换酶2@银纳米棒表面增强拉曼散射(ACE2 @SN-SERS),用于检测环境样品中SARS-CoV-2的存在。ACE2 @SN-SERS衬底可以产生强烈的拉曼信号。如果SARS-CoV-2刺突蛋白被ACE2捕获,拉曼信号就会被红移或全光谱改变所猝灭。这可以作为一种检测SARS-CoV-2的方法。第17个水样采用NIR共聚焦拉曼显微镜(HR进化,Horiba,美国),配备785 nm NIR激光源,一个300 l/mm的光栅,和一个半导体冷却探测器(CCD)。所有拉曼光谱均采用50倍物镜(NA = 0.7)、10 s曝光时间和3次积累法获得。激光功率为10 mW。在光谱采集之前,拉曼光谱系统在520cm−1的硅片下进行校准。将原始光谱数据集切割成一个生化细胞指纹区域(900-1800cm−1900个变量),并通过基线校正、小波去噪和向量归一化进行预处理。
第三个拉曼光谱数据集来自番茄,对冻伤番茄和完整番茄进行分