一种基于后间隔偏最小二乘的梯度下降助力谱建模方法

一种基于后间隔偏最小二乘的梯度下降助力谱建模方法

外文链接:https://pan.baidu.com/s/1MU_e2GCz7vDq0_z1dkFq6Q

 

摘要

 升压回归技术应用在近红外光谱,全光谱的样品通常用于偏最小二乘建模。然而,全谱中包含的大量冗余信息和噪声。这不仅增加了模型的复杂性,而且还降低了它的预测性能。此外,boosting算法对数据噪声敏感。如果数据中混合太多的噪声,不仅升压的泛化性能会降低,而且预测误差和方差的影响比较大。为了解决这些问题,本文提出梯度Boosting集成法集成法结合向后间隔偏最小二乘法Gd增强BiPLS)。 BiPLS用来选择助推基地模式的有效变量,每个基地模型依次进行重采样训练。BiPLS光谱分割参数和boosting迭代参数进行融合,并且每个基础模型的重量是有梯度下降分布。这使得新的集成模型(正向加性模型)在减少残差。最终的模型是能够获得最小的预测均方根误差(RMSEP)集成模型。提出的方法被施加到乙醇浓度的定量预测。在150次迭代,校准和验证集的平均相关系数分别为0.9628和0.9388,交叉验证和预测均方根误差的平均值分别为0.0732和0.0675。该方法的整体性能提升BiPLS GD与各种集成策略并且对4种先进的光谱建模方法比了相应的比较。实验结果表明,所提出的方法具有最好的泛化性和稳定性。

 

1.简介

 

许多近红外(NIR)光谱技术表明,光谱数据通常比样品并且和通常的光谱数据和测量的属性之间存在着非线性关系。传统的回归是一个建立在给定训练集的单一模型(如偏最小二乘(PLS)、人工神经网络、支持向量机)因此,该模型的稳定性和预测精度往往达不到最佳[1,2]。集合或共识战略[ 3–5 ]是一种新的机器学习范式,该范式用于建立可生产多个相似的生产预测模型的不同模型从而减少了样本的一个子集预测结果的数据支持,并显提高了该学习系统的泛化能力。集成学习中的基本模型的选择至关重要套袋[6,7]和提高[8,9]的两种主要方法。不像套袋法boosting可以减少偏差以及方差[ 10 ]。因此,为了提高单一模型的稳定性和泛化性,本文了boosting算法来集成建模

 boosting回归算法最初是由弗罗因德和Schapire [11,12]提出,后来德鲁克[ 13 ]对其推广改进并扩大在实际问题中的应用范围然而,boosting对数据中包含的噪声比较敏感。噪声的存在会降低boosting的泛化性能。在近红外光谱应用中,全谱一般用于boosting基本模型。然而近红外光谱是高度共线且含有大量的冗余噪声和其它无用的信息。这将会对模型的预测性能产生负面影响。此外,全谱不能反映研究现象的有效波长(如成分浓度)[14,15]向后间隔偏最小二乘(BiPLS)[16,17]可选择有效的变量(EV)以减少数据中的噪声,从而简化和提高模型精度。因此本文所提及的BiPLS作为促进基础模型得到一个集成模型(提高BiPLS),但是却表现出比一个变量全谱更好的预测性能。此外,传统的boosting集成使用一个简单的平均算法来评估每个基本模型的预测结果。虽然无法确定程度如何但是每个基本模型有助于最终的集成模型。弗里德曼提出了一个梯度下降算法(GD)[ 18,19 ],该算法中的每个计算降低了最后基地模式的残余,并且在减少残差方面建立了一个新的集成模型。这最终产生一个正向分布的加性模型,通过连续迭代从而达到优化损失函数的最小化。已获得了一系列有效的算法[ 20,24 ]例如,刘等人提出了一种基于多视点深度方法[ 25–27梯度场增强方法]。在这项工作中,我们提出了一个GD-Boosting-BiPLS法,并应用于近红外光谱分析。

 在该法中BiPLS用于选择EV建立基础模型,每个模型的重量由GD策略分配。特别是分割参数与迭代参数合,这种组合有助于降低模型的复杂性。该过程是设置初始迭代次数。在每次迭代过程中,采用BiPLS逐步减少相应的时间间隔,并用剩下的时间间隔建立基础模型将所有的训练样本输入到之前建立的基本模型中并计算出它们的预测误差。 根据误差调整试样量和采样,并与样品的新子集建立一个新的BiPLS基础模型。可采用使用GD法计算基本模型的权重和它们的前向加权和。对于基于最低的根最终模型的预测均方误差(RMSEP)上可选择基础模型的最优数量。
    为了测试模型性能,我们对近红外光谱数据进行实验,并从一系列基于Boosting BiPLS不同的集成策略的结果比较。这些都是简单的平均(SA),加权中值(WM)和钆增强,变量的全谱(GD Boosting-PLS)此外,我们基于变量选择上比较它与4个光谱方法的优劣。这些都属于连续投影算法(SPA)[ 28 ],无信息变量消除法(UVE)[ 29 ],蒙特卡罗法(MC-UVE)[ 30 ]和竞争自适应加权算法(CRA)[ 31 ]实验研究包括三个策略的效果分析(Gd,SA,WM),训练和测试精度,并且还提高BiPLS和Boosting-PLS提出的稳定性三维框架。
    本文的剩余章节如下。在2节中提供了一些背景,所提出的方法的基本算法包括BiPLS和Gd boosting在第三节中阐述了实验材料和数据处理方法,并提出和讨论的实证结果。最后,第4节总结了本研究的结论

2.1 BIPLS算法

BiPLS主要是用来选择PLS建模波长间隔。交叉验证的最小均方根误差(RMSECV)用于选择最佳的主要组成部分。算法如下:

步骤一:将整个光谱区划分为同等宽度的K个子区间。

步骤2:去掉k区间其中的一个子区间,并和剩余的K-1个子区间建立PLS模型。依次删除和替换每个区间得到建立在k-1个子区间上的K模型。
步骤三:用 RMSECV 衡量这些子模型的预测精度。其中第一区间对应精度最高的模型。把这个所有子模型中最好的模型作为第一个BiPLS模型。

步骤四:从k-1个子区间里面删除一个区间,并用剩余的k-2个子区建立PLS模型。因此可以从k-2个子区间得到(k–1)个模型。去除 这些模型中精度第二的子区间,并将该模型作为第二模型。重复该过程直到剩余一个子区间。

   步骤五:调查从步骤2到4每个库模型的RMSECV值,并选择最好的一个(与最低的RMSECV)作为BiPLS最终基础模型。因此,最终选定的模型就是最后剩下的那个模型。

   2.2.boosting梯度下降法

    

   GD boosting法可以被看作是一个连续的功能空间内的优化技术,同时也是一种基于平方算法的全新的boosting法。在这项工作中,GD boosting和由BiPLS建立的基本模型相结合。该方法可以被描述为

 

   步骤一:初始化样品重量为w=1/N,i=1:N,N为样品的数量。初始化集成模型F=0,m=1:M,M为初始化迭代次数。使用样本权重w的概率分布采样,并从这些选中的样本中建立基础模型。


   步骤二: 使用样本权重w的概率分布采样与替换并从这些样本建立基础模型。

   步骤三:计算基础模型的权重

           β=(R)

where Rm is the correlation coefficient of the training set in
the mth base model, wm i represents the weight of the ith
sample in the mth iteration, yi is the measured attribute
value of the ith sample, and f mðxiÞ is the predicted value of
the ith sample in the mth iteration. 

Rm是在M基地模型训练的相关系数,w我代表第i个样品的重量在m次迭代,y代表第第i个样本的测量属性,f(x)则是第m次迭代的预测属性值。

   步骤四:根据F=F+βf更新集成模型,并更新样本权重

     w=w,(i,j=1,2..,N)

  步骤五: 重复以上步骤2至4次,输出为

           

          二次损失函数是一个回归目标函数,如下:

          

    假设回归曲线与解释变量之间存在一种加性线性关系,。当F已由第一p回归,也即是,最小化的目标函数为下一步获得和做准备。在每一步中新添加的部分有助于损失到局部最优,导致F最后接近全局最优。

 

    2.3 GD-Boosting-BiPLS 方法

 

    本文提出了一种方法主要是结合广东BiPLS Boosting理论。基本的想法是建立一个最终的回归分析的集合模型。基础模型是逐步产生的BiPLS以迭代方式从而构成最终的集成模型。每一个新的基本模型的建立都是以减少以前的模型的缺陷为目的。同时,GD则会计录模型权重。最后,对所有的基本模型进行加权以获得一个更理想的集成模型。目的是使预测结果更加稳定和准确。该算法进行如下:

   步骤一:将整个光谱区域划分为同等宽度k个子区间。

   步骤二:根据概率抽样规范样本的权值W=1/N。使用轮盘赌法从原来的训练组中选择替换的n个样本。采用BiPLS算法获得的第一个基础模型F1,并根据Eq计算模型β重量1(1)。根据可更新集成模型。通过F1可以对所有的训练样本完成训练并计算每个样本的预测误差。样本权重w是根据Eq更新,这些都可可能在下一次迭代出现。

   步骤三:使用之前产生重采样的概率获得第二基地模型F2,同理可获得 F1模型,然后计算其重量β2。F2的光谱区间将低于F1的光谱区间此时根据更新集成模型。使用F2计算每个样本的预测误差同时再次更新样本权重W。

 

   步骤四:重复步骤2和3,直到最后一个基本模型调频,其中包括只有一个间隔显然,迭代次数小于光谱区间数(m=k-1)。参数M和参数K融合成一个参数。

集成模型是,并且样本的预测值是

   步骤五:输入测试样本到各集成模型F1、F2……FM来计算RESEP。选择模型FT给出了最小的RESEP作为最终模型。因此,最终的模型是一个模型的前权重的加权组合

    1概述了GD-Boosting-BiPLS框架。在这个框架中,基本模型按照顺序进行训练。之前基本模型的预测误差是用来调整样本权重 r重采样。因此,样本有可能在下一个基本模型的训练过程中出现更大的错误。该程序重复执行以逐步稳定训练错误。于是可以得到一套逐步修改的基本模型。BiPLS的功能是有效地去除冗余的光谱区间,从而简化基础模型提高精度。GD可以用来分配每个库模型的重量,每一步的集成模型能够达到局部最优。这确保了最终的模型可以快速地达到全局最优

 

 3.实验结果和讨论

   在这部分,我们给出了一个实验研究的结果并讨论了产生的影响。3.1部分介绍了实验材料和光谱数据处理,3.2节描述 模型及其参数。3.3和3.4部分分别讨论了模型的预测性能和稳定性

3.1.材料和数据
本节详细介绍了实验样品和数据。3.1.1节介绍了样品的制备和选定的数据集。3.1.2介绍光学仪器及实验收集光谱所需的实验环境。最后,3.1.3探讨不同的光谱处理方法以便选择最佳的一个用于如下实验

 

 

3.1.1。样品的制备

无水乙醇和去离子水(分析)常常用于准确制定2毫升中的162个样本。浓度梯度变化范围4.5%85%,梯度间隔为0.5%162样本采用SPXY法[ 32 ]按照2:1的比例分为两组。因此,在校准集和验证集各自分别有108和54个样品。

 

校准集主要用于训练样本并用验证集用于样本测试。表1样品中显示了乙醇含量的统计结果。可以注意浓度范围验证集包含在校准集的浓度范围内。因此它符合建模标准

3.1.2. 光谱采集

一个由珀金埃尔默制作的红外光谱仪用于实验。波12000~4000 cm 。共进行了32次扫描,分辨率为4 cm区间间隔为2cm

 

因此,每一个光谱有4001个变量。实验仪器还包括PC和手动移液器(埃彭多夫,德国)。用于收集光谱数据的光谱软件采用的是光谱版本10.4.1。室内温度保持在约25℃,而湿度基本保持不变(小于60%)。每个样品收集三,并将样品的原始光谱作为这三个样品的平均值。为了保证测量环境和人工操作的一致性扫描每10个样品,以消除漂移带来的影响。
3.1.3. 光谱预处理

   不同的光谱处理方法对模型性能有不同的影响。下面的方法被认为是是最好的162个样本:多元散射校正方法(MSC),标准正态变量变换(SNV),SNV加入趋势法(SNVþDT),采用–Golay平滑卷积平滑(SG)、滑动窗口(SW),和一阶导数 (1-der)和二阶导数(2-der)2给出了由最小二乘模型计算结果。我们可以看到,SNV性能最佳可以达到R的 值为0.9521RMSECV的值为0.0715。

 


 

 

   2(a)描述不同浓度乙醇的近红外吸收光谱。结果表明,最大吸收峰在5162cm,主要反映了O–H伸缩振动弯曲振动,以及吸收带的C -H弯曲振动的组合。这些特征峰已经广泛应用于水中乙醇含量的定量分析。FI G.2(b)显示频谱已经SNV处理。光谱吸收峰增加并且表现的明显,并且有利于光谱分析。因此,SNV最终作为后续比较实验的最终处理方法。

 

3.2.建模与参数选择

三集成策略(Gd,SA,WM)相结合的两个基本模型(BiPLS,PLS)形成以下六种模式:GD-Boosting-BiPLSGD- Boosting-PLSSA-Boosting-BiPLS SA-Boosting- PLSWM-Boosting-BiPLS和WM-Boosting-PLS。SA boosting是一个非梯度的前向加性模型。它采用了SA评价基本模型的结果,实际上是β=1时GD-boosting模型的一种特殊情况 WM-boosting是由德鲁克提出的一种经典方法[ 13 ]。

 

 

GD-Boosting-BiPLS的主要参数为迭代次数和谱段数。当在这个方法中使用到它们时实际上只需要考虑其中的一个参数。迭代数太小的话那么很难确定集合和BiPLS稳定的优点。然而,当迭代次数过大时,计算复杂度增加。 在这方面,实验研究大致做了1-50次迭代。图3描述了所有六种方法分别给出的验证集的预测结果。如图所示,当它的初始数大致在25左右,这六款车型的性能相对稳定。因此,我们对以下实验将初始迭代参数设置为25。

 

3.3.预测的性能分析

本节从三个方面对模型的预测性能进行了比较和分析。3.3.1节首先对集成策略进行了比较分析GD-boosting的性能。然后3.3.2节中对BiPLS和PLS进行比较考察BiPLS性能。最后在3.3.3节中经综合对比分析证明所提出的方法的预测性能。

 

3.3.1.集合策略的比较分析

对前面添加的算法WM算法进行比较:分析图3,我们可以看到GD-boostingSA-boosting对迭代次数相对来说不敏感,其R和R 的值保持在一个相对稳定的范围。因为由于GD和SA-boosting均是前向加性模型,他们可以自适应地搜索在合奏过程中的最佳结果。当结合PLS在迭代范围内结果变得开始稳定。在结合BiPLS的情况下,谱段的大小影响模型的性能,通过这种前向加性集成算法可以减少这种影响。因此结果也相对较为稳定。特别需要注意的是,如果只用一个迭代可以得到较为理想的结果将频谱分为两个时间间隔 其中之一是用于建模。部分原因是由于该算法提供了增强性功能另外一部分原因是由于谱线处在8000-4000cm当然这其中包含乙醇样品。

 

对于WM-boosting而言,当结合PLS进行建模时,结果较为稳定。当与BiPLS结合建模时,随着初始迭代次数的增加从而会导致模型的结果不稳定。随着迭代次数的增加,

 

 

 

 

 

 

   

 

   频谱段的数目也增加,而每个段包含较少的信息。在以后的迭代中用于基础模型的信息也不充分,所以这些基本模型效果不太好。然而,在这种算法下,最终的结果也即是从每个基础模型WM的结果。显然,这些相对较差的基本模型会降低最后的集合模型的效果此法产生的结果是不稳定的。这进一步说明了集成策略对基础模型有显著的影响。
    总之,正向算法优于WM算法。

    GD boosting和SA boosting比较:我们下一组的初始数为25来比较GD boosting和SA boosting 的预期表现可以考虑使用个基本模型(提高BiPLS提高PLS)和四最终集成模型。图4给出了25种基本模型和最终集成模型的比较示意图。这表明基础模型的RMSEP的值较大并且离散。最后的SA-Boosting-BiPLS和SABoosting-PLS集成模型RMSEP分别为0.0741和0.0763。这些结果比大多数基本模型要好GD-Boosting-BiPLS和 GD-Boosting-PLSRMSEPs分别为0.0658和0.0737,所有的其他基础模型效果都要好。此外,GD boosting RMSEPsSA boosting效果也好一些。

   因此,使用boosting算法可以提高模型的预测精度。此外,GD boosting的性能优于SA boosting。

   综合分析表明,无论是BiPLS还是PLS,梯度算法优于非梯度SA算法,后者比WM算法更佳。此外,这证明了在本文中使用GD算法可以有效地提高的基本模型的预测精度和泛化能力。

3.3.2.GD和BiPLS的综合比较分析

   在上一小节中提到,GD比SA和WM更佳,可以有效提高模型性能。然而,GD的效果将会受到基础模型的影响。由于boosting对数据中的噪声较为敏感,它的泛化性能在有噪音的情况下会减少。由于不同构建基础模型方法具有不同的处理噪声的能力,会得到不同的结果。

 

 

5描述的由GD-Boosting-BiPLS GD-Boosting-PLS产生的回归率
。我们可以看到,GD-Boosting-BiPLS产生的样本点更集中、更接近回归线,且 预测精度也高于GDBoosting-BiPLS 。这表明BiPLS使用的特征谱的模型优于PLS使用全光谱建模。虽然近红外光谱有高度的共线性,但是全谱也包含了大量的无用信息,如冗余噪声。这将对预测产生负面影响 。此外,全谱建模不能反映研究现象的真正有效波长。相比之下,BiPLS消除了噪声的影响并能够提取EV来在每一步建立模型。这就很好地解决了数据噪声敏感性的问题,并最终提高了集成模型的预测性能。因此,GD-Boosting-BiPLS的预测性能优于GD-Boosting-PLS

3.3.3.预测绩效的综合比较分析


    1)boosting集成方法比较:表3总结了三个算法的平均结果,结果是基于两个基本模型而得出。WM-Boosting-BiPLS得出的结果比WM Boosting-PLS得出的要差,如第3.3.1提到,BiPLS在WM算法的前提下不合适建立基础模型。然而,GD boosting SA boosting与BiPLS合奏模型优于PLS。因此,BiPLS在向前添加剂的策略是有用的,有助于提高最终集成模型的精度

    最好的结果是通过GD boostingbipls方法实现,这进一步说明了 GD boosting与BiPLS结合的有效性。这可以解释如下。 GD boosting自适应地选择可以避免在后面的迭代BiPLS误差的最佳效果,同时有效地提高在不同迭代BiPLS推广范围。第二,把 BiPLS基本模型能有效去除光谱噪声并且在光谱数据中降低boosting 敏感性

(2) 2与变量选择方法进行比较:增强GD-Boosting-BiPLS方法的有效性,我们比较了该法与SPA,UVE,MC-UVE,  CARS。他们都是有效的光谱变量选择方法,并得到了广泛的关注。其中,SPA是一个正向选择法,利用向量投影分析变量在一个向量空间最小化线性度 。UVE使用leaveone交叉验证建立的PLS回归系数模型。MC-UVE则是建立基于蒙特卡洛抽样光谱PLS回归系数模型 。 CARS模拟达尔文进化论优胜劣汰的原则,并介绍了指数衰减函数来控制变量的变量保留率 。该模型所提出的 GD-Boosting-BiPLS MC-UVE最优迭代次数达到25。SPA模型选取变量数达到30。对的截止阈值为0.9。CRAS样本的数量是500. 这些方法都是仿照原校正集(108,54)。变量选择结果如图6所示。

36(a)显示了由SPA结合PLS8个变量。图6(b)表示每一波长的UVE变的稳定系数。剩下的部分是变量指数且右部分随机变量。两截止线之间的变量自动会被识别为无信息变量,该变量需要淘汰,最后保留214个变量。  

 6(c)结合 MC-UVE 研究RMSEP之变化。在保留的1311个变量中,RMSECV中最小值是0.0684。图6(D)描述了CARS选择过程中的变量。RMSECV的减少表明消除变量并不起作用。当RMSECV
增至418个采样时,最终选择29个变量。

 

4中可以看出,对SPA的校准精度最高,但其验证精度是最低的。SPA选择的变量的数目是较少,这可能会使模型不能承载足够多有用的信息 。该方法的预测性能是这些方法中最好的,这进一步表明了GD-Boosting-BiPLS方法在变量选择中是有效的并可以很好的应用在近红外光谱

3.4模型的稳定性分析

   我们测试了方法的稳定性并且与其他两种方法做了比较。图7描述了一个初始迭代集合模型集成过程的二次损失误差曲线 ,该曲线初始迭代参数为25。GD-Boosting-BiPLS二次损失误差逐渐减小,并在最初的八次迭代过程中收敛于0。 SA-Boosting-BiPLS,二次损失误差不收敛,但能够保持相对稳定。然而,WM-Boosting-BiPLS给出了大量不同的数值。这进一步说明了所提出的方法的优良性能,该方法可以继续建立新的集成模型并且在减少残差的方向上快速、稳定收敛。

 

4.结论

   总而言之,本文主要介绍了一种a GD-Boosting-BiPLS法。首先,BiPLS选取一些特征变量建立基础模型这有效地解决了全谱PLS模型的问题,全谱PLS模型包含大量冗余信息和共线性,并有助于提高模型的预测精度。算法用于新模型的重新采样。建立新模型是为了克服了以往模型的缺点有效提高了单一模型的稳定性和泛化能力。最后,GD用来给基本模型分配权重并在减少残差方向获得一个新的集合模型 这种方法可以自适应搜索最好的结果从而给出最终的集成模型。这确保了结果是基于以前的迭代而产生的这样不仅简化模型,避免了在迭代后期BiPLS引入的误差。本文推出的算法和非梯度SAWM boosting、BiPLPLSSPA,UVE,MCUVE和CARS经过对比,可知本文推出的算法是一种有效的学习方法。它有一个更稳定的泛化性能和更好的预测性能,这些素质可以有效地应用于近红外光谱技术

   致谢

    这项工作主要是在以下课题下展开的,国家科技项目2014bad04b05),中国自然科学基金(批准号:41371349),自然科学基金 中国湖北省(2014cfb141),华中科技大学自主创新研究基金(GF和自然科学),国家科技支撑计划项目(批准号:2012bah29b00)和国家高技术 中国的科技研究发展计划(批准号:2013aa102303)

 

 

 

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: 无信息变量消除法(UVE)是一种变量选择技术,它可以从数据集中自动地剔除不重要的特征,以减少维度,提高分类或回归的准确性。该方法首先计算出每个特征和整个数据集的无用程度,然后选择那些无用程度最小的特征。这样做的好处是降低计算的复杂性,减少噪音的影响,提高模型的精度和可解释性。 UVE方法可以应用于不同领域的数据挖掘任务,如分类、聚类、回归和模式识别等,且可以处理高维数据。该方法不需要任何先验知识,只需要输入原始数据集即可。在实际应用中,UVE方法相对于其他变量选择技术来说,具有以下优点: 1. 易于理解和使用,不需要太多的领域知识; 2. 可以处理不同类型的数据,如连续型、分类型、多变量等; 3. 可以减小模型的计算时间和内存需求; 4. 可以提高模型的可解释性和精度。 UVE方法基于信息论和统计学原理,具有很高的可靠性和鲁棒性。在数据挖掘中,特征选择是一项非常重要的技术,它可以提高模型的性能和可解释性。因此,UVE方法作为一种高效的特征选择方法,可以广泛应用于各种数据挖掘任务中。 ### 回答2: 无信息变量消除法(Uninformative Variable Elimination,UVE)是一种基于信息论的特征选择方法,用于降低数据维度和消除冗余特征。 该方法通过计算每个特征的信息增益和信息熵来评估它们对于目标变量的贡献。这些指标能够帮助我们识别出那些与目标变量相关性最强的特征,而删除那些没有信息量的特征。 在UVE中,从初始特征集合中删除具有最低信息增益或信息熵的变量。停止条件是数据集中特征数量的下降幅度达到预设的阈值。特征选择过程不断迭代,直到删除所需特征为止。 UVE可以减少特征数,提高模型的速度和准确性。另外,它还可以避免过度拟合,防止出现不必要的特征和数据噪声,从而使模型更加易于解释。 总之,无信息变量消除法是一种功能强大的特征选择方法,在大数据处理中具有极高的应用价值。通过UVE,我们可以让我们更好地了解数据特征,发现数据中的隐藏逻辑关系,提高预测精度和准确性。 ### 回答3: 无信息变量消除法(Uninformative Variable Elimination,简称UVE)是一种特征选择方法,通过剔除无信息变量来降低模型复杂度,提高预测性能。 在UVE中,首先需要确定一个变量评估标准,通常使用Pearson相关系数、卡方检验等统计方法来衡量变量与目标变量之间的相关性。然后,根据评估结果,将相关性较弱的变量从候选特征集中删除,直到最终选定的特征集合能够最大化预测模型的性能。 UVE的优点在于,它能够自动选择最重要的特征,并消除冗余变量,降低过拟合的风险。同时,UVE还可以提高模型的可解释性,使得模型结果更容易被人类理解和解读。 不过,UVE也有一些局限性。例如,当特征之间存在复杂的相互作用时,UVE可能无法准确评估变量的重要性,从而剔除一些有用的特征。因此,在选择特征选择方法时,需要根据具体问题和数据集的特点进行选择。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值