偏最小二乘法

最新推荐文章于 2022-07-09 22:28:55 发布

an05423833476591

最新推荐文章于 2022-07-09 22:28:55 发布

阅读量458

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/Acceptyly/p/3586703.html

版权

偏最小二乘法是一种新型的多元统计数据分析方法，它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了，在一个算法下，可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。

偏最小二乘法在统计应用中的重要性体现在以下几个方面：偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。偏最小二乘法之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息，然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量，噪音将被消除，从而达到改善预测模型质量的目的。但是，主成分回归仍然有一定的缺陷，当一些有用变量的相关性很小时，我们在选取主成分时就很容易把它们漏掉，使得最终的预测模型可靠性下降，如果我们对每一个成分进行挑选，那样又太困难了。

偏最小二乘回归可以解决这个问题。它采用对变量X和Y都进行分解的方法，从变量X和Y中同时提取成分(通常称为因子)，再将因子按照它们之间的相关性从大到小排列。现在，我们要建立一个模型，我们只要决定选择几个因子参与建模就可以了

基本概念

偏最小二乘回归是对多元线性回归模型的一种扩展，在其最简单的形式中，只用一个线性模型来描述独立变量Y与预测变量组X之间的关系: Y = b0 + b1X1 + b2X2 + ... + bpXp 在方程中，b0是截距，bi的值是数据点1到p的回归系数。

http://baike.baidu.com/link?url=6l10CQc9K8No55sjs4eY5bWPRckw7Qi5-nPO0ZtdiksodTTe6E4NPam4NsH6mdXwlkrRkAbuaISdrRx5PZ8r0a

偏最小二乘法是一种数学优化技术，它通过最小化误差的平方和找到一组数据的最佳函数匹配。用最简的方法求得一些绝对不可知的真值，而令误差平方之和为最小。通常用于曲线拟合。很多其他的优化问题也可通过最小化能量或最大化熵用最小二乘形式表达。

基本公式

偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析

基本特点

与传统多元线性回归模型相比，偏最小二乘回归的特点是：

（1）能够在自变量存在严重多重相关性的条件下进行回归建模；

（2）允许在样本点个数少于变量个数的条件下进行回归建模；

（3）偏最小二乘回归在最终模型中将包含原有的所有自变量；

（4）偏最小二乘回归模型更易于辨识系统信息与噪声（甚至一些非随机性的噪声）；

（5）在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。

建模方法

设有q个因变量和p个自变量。为了研究因变量与自变量的统计关系，观测了n个样本点，由此构成了自变量与因变量的数据表X和Y。偏最小二乘回归分别在X与Y中提取出t和u，要求：（1）t和u应尽可能大地携带它们各自数据表中的变异信息；（2）t和u的相关程度能够达到最大。在第一个成分被提取后，偏最小二乘回归分别实施X对t的回归以及Y对t的回归。如果回归方程已经达到满意的精度，则算法终止；否则，将利用X被t解释后的残余信息以及Y被t解释后的残余信息进行第二轮的成分提取。如此往复，直到能达到一个较满意的精度为止。若最终对X共提取了多个成分，偏最小二乘回归将通过施行yk对X的这些成分的回归，然后再表达成yk关于原自变量的回归方程。

转载于:https://www.cnblogs.com/Acceptyly/p/3586703.html