基于降维(特征、成分)的回归的计算原理
这类方法是个统称。简单来说,就是首先自变量进行降维处理,将原始的大量自变量减少为较少的一组不相关成分,这些成分代表了原始自变量的特征组合,并对这些成分(而非原始的自变量)执行回归的过程。
基于降维的回归方法中,最具代表性的一个子类别就是主成分回归(Principal Component Regression,PCR),它是主成分分析(PCA)和普通最小二乘(OLS)回归的结合,最简单也最容易理解。就以主成分回归为例,包含三个步骤:
(1)使用所有的自变量运行主成分分析(PCA),对自变量进行降维,获得一组互不相关(正交)的主成分,这些主成分承载了原始变量的方差;
(2)使用主成分代替原始的自变量,运行普通最小二乘(OLS)回归,也就是通过线性回归建立这些主成分与响应变量的线性关系;
(3)计算与输入变量相对应的模型参数。
其它类别的基于降维的回归方法在主成分回归的基础上延伸得来。实际的应用中,根据具体情况选择合适的方法,总之非常灵活多样:
(1)降维方法不局限于PCA,也可以是主坐标分析(PCoA)、非度量多维标度(NMDS)等;
(2)回归方法不局限于线性回归,也可以是其它类型的非线性回归等。
基于降维(特征、成分)的回归的特点
下文简单概括这类方法的特点。
在一定程度上降低模型的复杂性
降维后的成分有效代表了原始变量的整体特征。通过回归拟合重要成分与响应变量的关系,该过程减少了模型中变量的数量,因此也相应地降低了模型的复杂性,这总的来说是一个优点。
但是很多情况下,成分的选择需要谨慎。并非每个成分都与响应变量有关,对于不重要的成分最好不予考虑,并且成分的选择不宜过多,否则难以体现降维的优势。一般而言,在前几个降维后的成分中进行选择就可以了,它们通常承载了变量集的绝大部分方差,并且与响应变量最相关的成分也通常包含在内。
这种“降低模型的复杂性”是如何体现的,可以参考下文中的文献实例一。
利于更好的趋势特征建模
很多分析中,为了更好的描述趋势响应关系,通常会排除一些不相干变量。而这类基于降维的回归方法,在这种情况下会显得很有用。
降维的一个明显的优势是,可以通过其中2-3个成分绘制散点图,利于观察对象的分布趋势。这样就可以将趋势明显的一组成分提取出来,并用它们建模以解释生物学问题。特别是当某一成分即有效代表了数据集中对象的整体响应趋势时,