主成分回归之后预测_对基于降维(特征、成分)的回归方法作个简介

主成分回归(PCR)是将主成分分析(PCA)与线性回归结合的方法,通过降维处理自变量,减少模型复杂性,避免多重共线性,利于趋势特征建模。PCR通常包括三个步骤:主成分分析、使用主成分进行回归和计算模型参数。降维方法和回归方法可灵活选择,适用于高维数据的建模,但可能难以解释变量效应。
摘要由CSDN通过智能技术生成
0aba3f5b66936edd9a62a1546b74c22f.gif 对那些基于降维(特征、成分)的回归方法作个简介 e250165a3043ffceecae84b30de88e82.gif 很多生物学数据集具有高维的特征,体现在变量数量非常多且存在高度共线性,难以通过常规的多元回归分析变量间关系。 在前文 基于相似或相异度矩阵的多元回归( MRM ) 中,提到了一种替代方法是可以根据多变量数据计算所有样本之间的相似度或距离 ,然后基于相似或相异度矩阵执行回归分析,解释一组变量对另一组变量的整体效应。 本篇列举另一种方法,基于降维的回归。 备注:这个方法的名称是白鱼同学瞎取的,因为实在不知道该怎么称呼,有些片面 ...... 基于降维的回归、基于特征的回归、基于成分的回归等等,怎么叫都行吧 ...... 算了名称无所谓了,看了下文的方法过程描述就知道是怎么一回事了。

基于降维(特征、成分)的回归的计算原理

这类方法是个统称。简单来说,就是首先自变量进行降维处理,将原始的大量自变量减少为较少的一组不相关成分,这些成分代表了原始自变量的特征组合,并对这些成分(而非原始的自变量)执行回归的过程。

基于降维的回归方法中,最具代表性的一个子类别就是主成分回归(Principal Component Regression,PCR),它是主成分分析(PCA)和普通最小二乘(OLS)回归的结合,最简单也最容易理解。就以主成分回归为例,包含三个步骤:

(1)使用所有的自变量运行主成分分析(PCA),对自变量进行降维,获得一组互不相关(正交)的主成分,这些主成分承载了原始变量的方差;

(2)使用主成分代替原始的自变量,运行普通最小二乘(OLS)回归,也就是通过线性回归建立这些主成分与响应变量的线性关系;

(3)计算与输入变量相对应的模型参数。

其它类别的基于降维的回归方法在主成分回归的基础上延伸得来。实际的应用中,根据具体情况选择合适的方法,总之非常灵活多样:

(1)降维方法不局限于PCA,也可以是主坐标分析(PCoA)、非度量多维标度(NMDS)等;

(2)回归方法不局限于线性回归,也可以是其它类型的非线性回归等。

 

基于降维(特征、成分)的回归的特点

下文简单概括这类方法的特点。

在一定程度上降低模型的复杂性

降维后的成分有效代表了原始变量的整体特征。通过回归拟合重要成分与响应变量的关系,该过程减少了模型中变量的数量,因此也相应地降低了模型的复杂性,这总的来说是一个优点。

但是很多情况下,成分的选择需要谨慎。并非每个成分都与响应变量有关,对于不重要的成分最好不予考虑,并且成分的选择不宜过多,否则难以体现降维的优势。一般而言,在前几个降维后的成分中进行选择就可以了,它们通常承载了变量集的绝大部分方差,并且与响应变量最相关的成分也通常包含在内。

这种“降低模型的复杂性”是如何体现的,可以参考下文中的文献实例一。

利于更好的趋势特征建模

很多分析中,为了更好的描述趋势响应关系,通常会排除一些不相干变量。而这类基于降维的回归方法,在这种情况下会显得很有用。

降维的一个明显的优势是,可以通过其中2-3个成分绘制散点图,利于观察对象的分布趋势。这样就可以将趋势明显的一组成分提取出来,并用它们建模以解释生物学问题。特别是当某一成分即有效代表了数据集中对象的整体响应趋势时,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值