无信息变量选择(UVE)波长筛选算法--基于OpenSA开源库实现

系列文章目录

“光晰本质,谱见不同”,光谱作为物质的指纹,被广泛应用于成分分析中。伴随微型光谱仪/光谱成像仪的发展与普及,基于光谱的分析技术将不只停留于工业和实验室,即将走入生活,实现万物感知,见微知著。本系列文章致力于光谱分析技术的科普和应用。



前言

典型的光谱分析模型(以近红外光谱作为示意,可见光、中远红外、荧光、拉曼、高光谱等分析流程亦相似)建立流程如下所示,在建立过程中,需要使用算法对训练样本进行选择,然后使用预处理算法对光谱进行预处理,或对光谱的特征进行提取,再构建校正模型实现定量分析,最后针对不同测量仪器或环境,进行模型转移或传递。因此训练样本的选择、光谱的预处理、波长筛选、校正模型、模型传递以及上述算法的参数都影响着模型的应用效果。

图 1近红外光谱建模及应用流程
针对光谱分析流程所涉及的常见的训练样本的划分、光谱的预处理、波长筛选、校正模型算法建立了完整的算法库,名为OpenSA(OpenSpectrumAnalysis)。整套算法库的架构如下所示。
在这里插入图片描述
样本划分模块提供随机划分、SPXY划分、KS划分三种数据集划分方法,光谱预处理模块提供常见光谱预处理,波长筛选模块提供Spa、Cars、Lars、Uve、Pca等特征降维方法,分析模块由光谱相似度计算、聚类、分类(定性分析)、回归(定量分析)构建,光谱相似度子模块计算提供SAM、SID、MSSIM、MPSNR等相似计算方法,聚类子模块提供KMeans、FCM等聚类方法,分类子模块提供ANN、SVM、PLS_DA、RF等经典化学计量学方法,亦提供CNN、AE、Transformer等前沿深度学习方法,回归子模块提供ANN、SVR、PLS等经典化学计量学定量分析方法,亦提供CNN、AE、Transformer等前沿深度学习定量分析方法。模型评估模块提供常见的评价指标,用于模型评估。自动参数优化模块用于自动进行最佳的模型设置参数寻找,提供网格搜索、遗传算法、贝叶斯概率三种最优参数寻找方法。可视化模块提供全程的分析可视化,可为科研绘图,模型选择提供视觉信息。可通过几行代码快速实现完整的光谱分析及应用(注: 自动参数优化模块和可视化模块暂不开源,等毕业后再说)


本篇针对OpenSA的光谱波长筛选模块进行代码开源和使用示意。

一、光谱数据读入

提供两个开源数据作为实列,一个为公开定量分析数据集,一个为公开定性分析数据集,本章仅以公开定量分析数据集作为演示。

1.1 光谱数据读入

# 分别使用一个回归、一个分类的公开数据集做为example
def LoadNirtest(type):

    if type == "Rgs":
        CDataPath1 = './/Data//Rgs//Cdata1.csv'
        VDataPath1 = './/Data//Rgs//Vdata1.csv'
        TDataPath1 = './/Data//Rgs//Tdata1.csv'

        Cdata1 = np.loadtxt(open(CDataPath1, 'rb'), dtype=np.float64, delimiter=',', skiprows=0)
        Vdata1 = np.loadtxt(open(VDataPath1, 'rb'), dtype=np.float64, delimiter=',', skiprows=0)
        Tdata1 = np.loadtxt(open(TDataPath1, 'rb'), dtype=np.float64, delimiter=',', skiprows=0)

        Nirdata1 = np.concatenate((Cdata1, Vdata1))
        Nirdata = np.concatenate((Nirdata1, Tdata1))
        data = Nirdata[:, 
  • 11
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 31
    评论
### 回答1: 无信息变量消除法(UVE)是一种变量选择技术,它可以从数据集中自动地剔除不重要的特征,以减少维度,提高分类或回归的准确性。该方法首先计算出每个特征和整个数据集的无用程度,然后选择那些无用程度最小的特征。这样做的好处是降低计算的复杂性,减少噪音的影响,提高模型的精度和可解释性。 UVE方法可以应用于不同领域的数据挖掘任务,如分类、聚类、回归和模式识别等,且可以处理高维数据。该方法不需要任何先验知识,只需要输入原始数据集即可。在实际应用中,UVE方法相对于其他变量选择技术来说,具有以下优点: 1. 易于理解和使用,不需要太多的领域知识; 2. 可以处理不同类型的数据,如连续型、分类型、多变量等; 3. 可以减小模型的计算时间和内存需求; 4. 可以提高模型的可解释性和精度。 UVE方法基于信息论和统计学原理,具有很高的可靠性和鲁棒性。在数据挖掘中,特征选择是一项非常重要的技术,它可以提高模型的性能和可解释性。因此,UVE方法作为一种高效的特征选择方法,可以广泛应用于各种数据挖掘任务中。 ### 回答2: 无信息变量消除法(Uninformative Variable Elimination,UVE)是一种基于信息论的特征选择方法,用于降低数据维度和消除冗余特征。 该方法通过计算每个特征信息增益和信息熵来评估它们对于目标变量的贡献。这些指标能够帮助我们识别出那些与目标变量相关性最强的特征,而删除那些没有信息量的特征。 在UVE中,从初始特征集合中删除具有最低信息增益或信息熵的变量。停止条件是数据集中特征数量的下降幅度达到预设的阈值。特征选择过程不断迭代,直到删除所需特征为止。 UVE可以减少特征数,提高模型的速度和准确性。另外,它还可以避免过度拟合,防止出现不必要的特征和数据噪声,从而使模型更加易于解释。 总之,无信息变量消除法是一种功能强大的特征选择方法,在大数据处理中具有极高的应用价值。通过UVE,我们可以让我们更好地了解数据特征,发现数据中的隐藏逻辑关系,提高预测精度和准确性。 ### 回答3: 无信息变量消除法(Uninformative Variable Elimination,简称UVE)是一种特征选择方法,通过剔除无信息变量来降低模型复杂度,提高预测性能。 在UVE中,首先需要确定一个变量评估标准,通常使用Pearson相关系数、卡方检验等统计方法来衡量变量与目标变量之间的相关性。然后,根据评估结果,将相关性较弱的变量从候选特征集中删除,直到最终选定的特征集合能够最大化预测模型的性能。 UVE的优点在于,它能够自动选择最重要的特征,并消除冗余变量,降低过拟合的风险。同时,UVE还可以提高模型的可解释性,使得模型结果更容易被人类理解和解读。 不过,UVE也有一些局限性。例如,当特征之间存在复杂的相互作用时,UVE可能无法准确评估变量的重要性,从而剔除一些有用的特征。因此,在选择特征选择方法时,需要根据具体问题和数据集的特点进行选择

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 31
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值