偏最小二乘法

最新推荐文章于 2022-07-09 22:28:55 发布

hitmonkey

最新推荐文章于 2022-07-09 22:28:55 发布

阅读量1.9k

点赞数

分类专栏：学习文章标签：数据分析算法数据结构扩展工具图形

本文链接：https://blog.csdn.net/hitmonkey/article/details/3985452

版权

学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文来自多个网文的转载，但是由于下载时间较长，具体网址已经不可考，还请原创作者见谅，本人拜谢！

偏最小二乘法偏最小二乘回归（Partial least-square）是一种新型的多元统计数据分析方法，1983年由伍德（S.Wold）和阿巴诺（C.Albano）等人首次提出。近十几年来，在理论、方法和应用方面都取得了迅速发展。1996年10月，在法国高等商业教育组织的组织和资助下，在巴黎召开了一次有关偏最小二乘回归方法理论与实践的学术研讨会。密西根大学（Michigan University）的弗耐尔（Fornell）教授称偏最小二乘回归为第二代回归分析方法。
4.3.1偏最小二乘回归方法的重要性主要有以下几个方面：（1）偏最小二乘回归是一种多因变量对多自变量的回归建模方法。它研究的焦点是多因变量对多自变量的回归建模，特别是当各变量集体内部存在较高程度的相关性时，用偏最小二乘回归进行回归建模分析，对比逐个因变量做多元回归更加有效，其结论更加可靠，整体性更强。
（2）偏最小二乘回归可以较好地解决许多以往普通多元回归无法解决的问题。我们在进行回归建模时常遇到的最典型的问题是自变量之间的多重相关性。一般地，为了更完备地描述特征和分析系统，尽可能不遗漏一些至关重要系统特征，分析人员往往倾向于较周到地选择有关指标。而这样构成的多指标系统存在严重的相关性。如果采用普通的最小二乘法，这样多重相关性就会严重危害参数估计，扩大模型误差，并破坏模型的稳健性。在偏最小二乘回归中开辟了一种有效技术途径，它利用对系统中的数据信息进行分解和筛选的方式，提取是对因变量解释最强的综合变量，辨识系统中的信息与噪声，从而更好地克服变量多重相关性在系统建模中的不良作用。
（3）偏最小二乘回归之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。偏最小二乘回归可以集多元回归分析、典型相关分析和主成分分析的基本功能为一体。由于偏最小二乘回归在建模同时实现了数据结构的简化，因此，可以在二维平面图上对多维数据的特性进行观察，这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算结束后，不但可以得到因变量对自变量的回归模型，而且可以在平面图上直接观察两组变量之间的相关关系，以及观察样本点间的相似性结构。
（4）偏最小二乘回归方法与普通多元回归分析在思路上的主要区别，是它在回归建模过程中采用了信息综合与筛选技术。它不在直接考虑因变量集合与自变量集合的回归建模，而在变量系统中提取若干对系统具有最佳解释能力的新综合变量（成分），然后利用它们进行回归建模。由于对自变量的综合，将可能克服多重相关性造成信息的重叠，由于对变量系统中的信息进行筛选，将有效地区分系统地信息和噪声，所以偏最小二乘回归方法能提高系统建模地准确性。

简介

偏最小二乘法是一种新型的多元统计数据分析方法，它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。近几十年来，它在理论、方法和应用方面都得到了迅速的发展。

偏最小二乘法

长期以来，模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了，在一个算法下，可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。

偏最小二乘法在统计应用中的重要性体现在以下几个方面：

偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。

偏最小二乘法之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。

主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息，然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量，噪音将被消除，从而达到改善预测模型质量的目的。但是，主成分回归仍然有一定的缺陷，当一些有用变量的相关性很小时，我们在选取主成分时就很容易把它们漏掉，使得最终的预测模型可靠性下降，如果我们对每一个成分进行挑选，那样又太困难了。

偏最小二乘回归可以解决这个问题。它采用对变量X和Y都进行分解的方法，从变量X和Y中同时提取成分(通常称为因子)，再将因子按照它们之间的相关性从大到小排列。现在，我们要建立一个模型，我们只要决定选择几个因子参与建模就可以了

基本概念

偏最小二乘回归是对多元线性回归模型的一种扩展，在其最简单的形式中，只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:

Y = b0 + b1X1 + b2X2 + ... + bpXp

在方程中，b0是截距，bi的值是数据点1到p的回归系数。

例如，我们可以认为人的体重是他的身高、性别的函数，并且从各自的样本点中估计出回归系数，之后，我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说，最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。

多元线性回归模型为了处理更复杂的数据分析问题，扩展了一些其他算法，象判别式分析，主成分回归，相关性分析等等，都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点，即对数据的约束性：

变量X和变量Y的因子都必须分别从X'X和Y'Y矩阵中提取，这些因子就无法同时表示变量X和Y的相关性。

预测方程的数量永远不能多于变量Y跟变量X的数量。

偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中，预测方程将由从矩阵Y'XX'Y中提取出来的因子来描述；为了更具有代表性，提取出来的预测方程的数量可能大于变量X与Y的最大数。

简而言之，偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法，这种灵活性让它适用于传统的多元校正方法所不适用的许多场合，例如一些观测数据少于预测变量数时。并且，偏最小二乘回归可以作为一种探索性的分析工具，在使用传统的线性回归模型之前，先对所需的合适的变量数进行预测并去除噪音干扰。

因此，偏最小二乘回归被广泛用于许多领域来进行建模，象化学，经济学，医药，心理学和制药科学等等，尤其是它可以根据需要而任意设置变量这个优点更加突出。在化学计量学上，偏最小二乘回归已作为一种标准的多元建模工具。

计算过程

基本模型

作为一个多元线性回归方法，偏最小二乘回归的主要目的是要建立一个线性模型：Y=XB+E，其中Y是具有m个变量、n个样本点的响应矩阵，X是具有p个变量、n个样本点的预测矩阵，B是回归系数矩阵，E为噪音校正模型，与Y具有相同的维数。在通常情况下，变量X和Y被标准化后再用于计算，即减去它们的平均值并除以标准偏差。

偏最小二乘回归和主成分回归一样，都采用得分因子作为原始预测变量线性组合的依据，所以用于建立预测模型的得分因子之间必须线性无关。例如：假如我们现在有一组响应变量Y(矩阵形式)和大量的预测变量X(矩阵形式)，其中有些变量严重线性相关，我们使用提取因子的方法从这组数据中提取因子，用于计算得分因子矩阵：T=XW，最后再求出合适的权重矩阵W，并建立线性回归模型：Y=TQ+E，其中Q是矩阵T的回归系数矩阵，E为误差矩阵。一旦Q计算出来后，前面的方程就等价于Y=XB+E，其中B=WQ，它可直接作为预测回归模型。

偏最小二乘回归与主成分回归的不同之处在于得分因子的提取方法不同，简而言之，主成分回归产生的权重矩阵W反映的是预测变量X之间的协方差，偏最小二乘回归产生的权重矩阵W反映的是预测变量X与响应变量Y之间的协方差。

在建模当中，偏最小二乘回归产生了pxc的权重矩阵W，矩阵W的列向量用于计算变量X的列向量的nxc的得分矩阵T。不断的计算这些权重使得响应与其相应的得分因子之间的协方差达到最大。普通最小二乘回归在计算Y在T上的回归时产生矩阵Q，即矩阵Y的载荷因子(或称权重)，用于建立回归方程：Y=TQ+E。一旦计算出Q，我们就可以得出方程：Y=XB+E，其中B=WQ，最终的预测模型也就建立起来了。