数据处理
文章平均质量分 72
一条大咸咸鱼
热爱科研,无法自拔
展开
-
光谱异常样本检测分析
介绍近红外光谱数据处理方法原创 2022-11-26 20:01:47 · 3891 阅读 · 5 评论 -
光谱特征选择---随机蛙跳变量选择RF
我们已经连续好几期在讲特征变量选择算法,这其中一个很重要的一个原因是:光谱数据的高维冗余性和目标值与少数解释变量之间的相关性,也就是特征解释问题。如何从实际测量的高维光谱数据中选择具有解释能力(特征变量)的变量是目前特征选择或者特征降维的主要研究内容,也是光谱分析建模的关键组成。本期分享的随机蛙跳(Random Frog, RF)主要参考李宏东老师于2012年发表在ACA的论文(题目见文末),区别于由Kevin Lanes和Mustafa Eusuff于2003年提出的随...原创 2022-05-29 19:11:26 · 6779 阅读 · 7 评论 -
光谱特征选择---非信息变量剔除UVE
作为光谱分析的经典算法之一,非信息变量剔除(Uninformative Variables Elimination, UVE)自1996年提出后一直被广泛应用于光谱分析领域,至今相关的研究论文都在使用或者对比UVE算法,因此有必要对UVE的原理、使用及绘图进行分享,作者的原文题目为 Elimination of Uninformative Variables for Multivariate Calibration,可在学术网站上下载查阅。1. UVE算法的原理...原创 2022-05-21 23:20:42 · 8064 阅读 · 28 评论 -
光谱特征选择---竞争自适应重加权采样CARS
多元校正模型是目前多组分光谱分析的主要分析方法,但是实际分析数据存在严重的共线性和冗余干扰问题,此外,如何去解释建模变量对实际分析过程具有重要意义。因此,无论从模型性能提升还是模型变量解释方面都有必要对分析数据进行变量选择。本周跟大家分享一篇经典论文:Hongdong Li, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calib...原创 2022-05-16 11:55:15 · 22312 阅读 · 42 评论 -
光谱特征选择---连续投影算法SPA
作为光谱分析的重要环节,如何从冗余、复杂的变量中选取特征变量直接决定了预测模型的性能,在实际特征选择过程中,通常从两方面考虑特征选择的合理性:一是对目标变量y的解释性,二是不同自变量x间的冗余性,前者是考虑变量自身或变量组合的预测性能,后者考虑变量间的冗余问题,如何在保证对模型性能的同时减少变量冗余对于提高模型精度、降低过拟合风险和提高模型泛化性十分重要。本周分享连续投影算法(successive projections algorithm,SPA),SPA算法2001年...原创 2022-05-16 11:27:56 · 22213 阅读 · 27 评论 -
光谱预处理方法综述及分析策略选择
化学计量学方法及计算机技术的快速发展促进了以近红外光谱分析为代表的无损检测技术的广泛应用,建立准确的分析预测模型是近红外分析的核心工作。其中,感兴趣信息的提取是数据分析和模型解释的基础,也直接决定了模型的泛化性和稳定性。但实际分析过程获取的光谱数据在包含有效信息的同时,还包含大量的冗余、干扰信息,作为数据“清洗”的关键一步,数据预处理对光谱分析过程至关重要,不同预处理方法及其组合对数据分析影响不同,如何根据预处理方法的适用性选择合适的方法及其组合是近红外分析的首要任务。预处理主要用于调整每个测量变量的可原创 2022-05-03 09:01:30 · 8777 阅读 · 8 评论 -
第二章---近红外光谱分析的光谱组成1
化学计量学中涉及到的光谱强度通常是指样品的纯光谱数据,但实际分析过程中测量的光谱在包含样品光谱的同时,通常还包含样品的测量参数引起的背景光谱,即所得光谱通常由纯光谱信息叠加背景光谱组成。这两类信息的加载过程、分析原理和提取方法存在本质差异,也分别决定了模型的准确性和稳健性,下面将分别从不同方面进行介绍。 1.1 近红外光谱样本信息的加载 (1) 样品光谱信息加载的物理过程 近红外光谱分析的本质是通过分析物质和光谱信息之间的关联信息建立分析...原创 2021-10-05 19:30:04 · 1340 阅读 · 0 评论 -
第一章---近红外光谱概述2(近红外光谱分析难点及解决思路)
2.1 近红外光谱数据难点概述1中简单介绍了近红外光谱分析的原理和实测数据的复杂、多元、重叠等特性,这些特性导致所得光谱数据无法直接建立关联分析模型。以农业检测为例,某样品所测光谱数据如图1所示,(图片来源:严衍禄等.近红外光谱分析的原理、技术及应用,涉及到纯样分析,暂时无法获取数据),图1(1)中1和3所示为同一样品在不同扫描时间的光谱,1和2为不同样品在同一时间的扫描光谱,图1(2)中5表示实测谷物的近红外光谱,其主要组成成分包含水分、脂肪、蛋白质和淀粉等,1-4分别表...原创 2021-09-27 15:09:13 · 8207 阅读 · 4 评论 -
第一章---近红外光谱分析概述1
1.1 近红外光谱分析的技术特征 按照分析介质或手段的不同,光谱分析属于分析科学中的物理及物理化学分析,按照其采用分析光谱的谱区差异,可分为近红外、中红外和远红外等,其共性特征是:光谱分析的基础信息都是根据分子等微观粒子运动的特点,通过分析分子振动和光源频率的“共振现象”实现分析对象的信息加载,按照光谱的产生过程,可具体分为吸收光谱和发射光谱。考虑到不同物质吸收/发射光谱的差异以及谱区的针对性,近红外光谱分析通常指的是吸收光谱分析。 近红外分析的信息流程:...原创 2021-09-26 20:39:28 · 4877 阅读 · 0 评论 -
近红外光谱分析的原理、技术及其分析方法
硕士期间对近红外光谱分析技术的基本原理和分析过程进行了简单了解,后期学习发现自己对近红外光谱的原理、技术和主要分析方法了解不够深入,很多分析方法和技巧并未掌握。此外,对于部分分析方法的编程和优化过程不熟悉,上述问题的存在导致后期研究存在较大困难,为弥补自己的心愿,以及提高个人对近红外分析的认识,从今天开始,我将对近红外分析的基本原理、分析技术、主要优化算法、自己实践过程遇到的问题及分析思路进行介绍。欢迎大家一起交流,共同进步。 写作的主要内容包括以下几大板块: ...原创 2021-09-26 11:33:25 · 6848 阅读 · 4 评论 -
写作内容征求意见
最近在重新看近红外光谱分析的基本原理、分析方法和相关的研究进展,产生了对近红外分析技术(分析原理,分析方法、注意事项以及关键代码实现等)进行全面表述的想法,但是工作量很大,想咨询广大阅读者的建议,是否有必要写此类博客(预估周期在半年左右)...原创 2021-09-24 09:55:14 · 299 阅读 · 7 评论 -
博基计划(5)---模型交叉验证方法讨论
对于多变量软测量建模分析,在避免模型过拟合或欠拟合情况下确定最佳模型复杂度或确定关键变量(包括主成分和潜变量)是建立稳定模型的关键,本节主要讨论用于模型子集选择的交叉验证方法。相比于测试集验证,交叉验证只采用校正数据进行模型验证,因此对于检测成本较高的分析过程十分有利,其基本过程三步:(1)划分校正样本子集(训练集、测试集);(注:子集并不一定是当个样本,其样本数大于等于1)(2)基于训练集建立校正模型;(3)校正模型进行预测分析。重复上述步骤,直至所有划分子集验证完成,对不同子集的预测原创 2021-04-24 14:36:21 · 1132 阅读 · 3 评论 -
博基计划(4)---近红外光谱过程分析中基线漂移的主要来源
近红外光谱分析技术作为一种标准检测方法已经应用于生物制药、石油化工等过程,但是分析过程中存在的基线漂移问题使得检测到的光谱数据存在测量误差和特征变量弱化等问题,为减少误差对模型精度的影响,提高实际不同官能团的特征信息表征能力,有必要分析造成测量过程基线漂移的主要来源:(1)样品中气泡散射光;当样品中含有气泡时,进入紫外区越远,散射的影响越大,如果太多光被散射,则导致无足够的光线进入样品,因此无法实现可靠测量。具体改善措施为:在比色皿或样品池的探头光照范围内尽量减少气泡,例如直接采用惰性气体进行液体吹扫预原创 2021-03-31 17:01:01 · 2706 阅读 · 0 评论 -
博基计划(2)---软测量建模
在现代工业控制过程中,提高生产过程控制效益最大化是衡量一个控制系统性能的基本指标。但是由于设备成本和技术等因素限制,很多关键变量(质量参数或质控参数)无法或者难以用传感器进行实时测量。解决该问题的主要途径有:(1)研制新型测量仪表,通过硬件方式进行检测;但是新型仪表研发成本较高,而且对于集成系统而言,新增测量仪表需要生产过程停产改造,这对于大型化工企业而言是无法实现的,最关键的一点是关键变量与容易检测的过程变量一般在不同操作单元,这意味着在线分析仪表分析数据存在分析滞后问题,滞后参数分析影响分析模型准确原创 2020-11-28 10:39:42 · 2332 阅读 · 0 评论 -
常见分类模型性能度量指标
在多分类问题中,如何对分类模型进行综合评价是分析分类模型综合性能的关键,常见的用于评价分类模型性能指标有:准确率(accuracy, A)、精准率(precision, P)、召回率(Recall)、综合评价指标(F1-scrore).具体计算公式为:式中:TP(ture positives,纳真)表示实际为正类的样本预测为正类的样本数;TN(ture negatives, 去伪)表示实际为负类的样本预测为负类的样本数;FP(false positives, 去伪)表示实际为负类的样...原创 2020-10-14 14:48:51 · 2293 阅读 · 1 评论 -
MATLAB实现多分类预测结果混淆矩阵(Confusion matrix)可视化
对于多分类问题,如何对预测结果进行可视化是对比分析的关键一步,在实际多分类问题,除了简单展示模型预测精度外,如何分别不同类别之间的预测结果对于分析样本相关性和属性区别具有重要意义,在MATLAB中一般通过混淆矩阵confusion matrix对分析结果进行可视化分析,其基本实现函数为:1. plotconfusion(targets,outputs)2.plotconfusion(targets,outputs, name)其中 targets为样本对应实际标签,outputs为所建模型.原创 2020-10-11 21:17:46 · 17439 阅读 · 26 评论 -
MATLAB 检验数据正态分布及代码实现
上篇简要介绍了正态分布检测的必要性和主要分析方法,此篇主要介绍如何通过MATLAB判断分析数据正态特性。1. 主要方法MATLAB检测数据正态特性主要通过数值测定和图形分析,其中数值测定指通过JB等假设检验方法进行测定分析数据,图形分析方法是指通过分析数据正态拟合程度判断数是否符合正态分布,主要有Q-Q图、直方图以及normplot工具箱。2.代码实现(1)假设检验JB: H= jbtest (X)H = jbtest (X,alpha)[h, p, jbstat, cv] =原创 2020-09-30 09:06:56 · 30258 阅读 · 5 评论 -
近红外光谱特征选择、特征提取区别及稀疏表示
近红外光谱分析技术已经在很多领域得到了广泛应用,但是实际分析过程中所采集的数据都是高维、复杂的数据信号,如何从复杂的信号中选择出建模所需要的基本数据就是所谓的近红外光谱数据特征筛选或特征选择,特征提取和特征选择从数学角度来讲是两种不同的方法。 特征选择是通过选择特征变量相对集中的区间进行组合处理,然后对所筛选的变量进行下一步操作,这种方法简单、易操作,对于含有稀疏变量...原创 2019-11-29 10:12:40 · 15560 阅读 · 118 评论