数据获取
文章平均质量分 77
一条大咸咸鱼
热爱科研,无法自拔
展开
-
光谱特征选择---连续投影算法SPA
作为光谱分析的重要环节,如何从冗余、复杂的变量中选取特征变量直接决定了预测模型的性能,在实际特征选择过程中,通常从两方面考虑特征选择的合理性:一是对目标变量y的解释性,二是不同自变量x间的冗余性,前者是考虑变量自身或变量组合的预测性能,后者考虑变量间的冗余问题,如何在保证对模型性能的同时减少变量冗余对于提高模型精度、降低过拟合风险和提高模型泛化性十分重要。本周分享连续投影算法(successive projections algorithm,SPA),SPA算法2001年...原创 2022-05-16 11:27:56 · 21369 阅读 · 27 评论 -
第一章---近红外光谱概述2(近红外光谱分析难点及解决思路)
2.1 近红外光谱数据难点概述1中简单介绍了近红外光谱分析的原理和实测数据的复杂、多元、重叠等特性,这些特性导致所得光谱数据无法直接建立关联分析模型。以农业检测为例,某样品所测光谱数据如图1所示,(图片来源:严衍禄等.近红外光谱分析的原理、技术及应用,涉及到纯样分析,暂时无法获取数据),图1(1)中1和3所示为同一样品在不同扫描时间的光谱,1和2为不同样品在同一时间的扫描光谱,图1(2)中5表示实测谷物的近红外光谱,其主要组成成分包含水分、脂肪、蛋白质和淀粉等,1-4分别表...原创 2021-09-27 15:09:13 · 7873 阅读 · 4 评论 -
博基计划(5)---模型交叉验证方法讨论
对于多变量软测量建模分析,在避免模型过拟合或欠拟合情况下确定最佳模型复杂度或确定关键变量(包括主成分和潜变量)是建立稳定模型的关键,本节主要讨论用于模型子集选择的交叉验证方法。相比于测试集验证,交叉验证只采用校正数据进行模型验证,因此对于检测成本较高的分析过程十分有利,其基本过程三步:(1)划分校正样本子集(训练集、测试集);(注:子集并不一定是当个样本,其样本数大于等于1)(2)基于训练集建立校正模型;(3)校正模型进行预测分析。重复上述步骤,直至所有划分子集验证完成,对不同子集的预测原创 2021-04-24 14:36:21 · 1110 阅读 · 3 评论 -
博基计划(2)---软测量建模
在现代工业控制过程中,提高生产过程控制效益最大化是衡量一个控制系统性能的基本指标。但是由于设备成本和技术等因素限制,很多关键变量(质量参数或质控参数)无法或者难以用传感器进行实时测量。解决该问题的主要途径有:(1)研制新型测量仪表,通过硬件方式进行检测;但是新型仪表研发成本较高,而且对于集成系统而言,新增测量仪表需要生产过程停产改造,这对于大型化工企业而言是无法实现的,最关键的一点是关键变量与容易检测的过程变量一般在不同操作单元,这意味着在线分析仪表分析数据存在分析滞后问题,滞后参数分析影响分析模型准确原创 2020-11-28 10:39:42 · 2282 阅读 · 0 评论 -
机器学习系列5---偏差和方差分解
机器学习的目的就是通过选择合适的算法确定输入和输出变量之间的映射关系,不同学习算法的对比指标一般是对应模型的泛化性能,但是在实际分析过程中模型泛化性能不是单一成分,不同数据集划分或者样本选择均会对泛化性能的不同部分产生影响,一般将学习算法对应模型的泛化误差分为两部分:偏差(预测集)+方差(训练集),具体推导过程如下: 假设对于测试样本,令对应变量标记为,真实输出为;训练集 D 的模型输出为,则对于测试样本,基于训练集模型的期望输出为: ...原创 2020-05-28 16:46:58 · 1798 阅读 · 0 评论 -
MATLAB读取结构体中的数据
近期做做一个数据分析的文章,需要使用经典的近红外光谱数据集 corn NIR(网址:http://eigenvector.com/), 但是下载的数据是包含在一个数据集中,无法直接使用,需要进行数据读取,此时有以下学习收获: 1.在读取包含在结构体中的近红外光谱数据之前,需要知道所需数据在结构体内的名称,使用 fieldnames() 函数查看具体名称,以上述数据...原创 2020-01-11 16:05:30 · 65699 阅读 · 23 评论