偏最小二乘法 基本性质推导

为了加深对偏最小二乘法的理解,有必要理解其基本的性质,才能更好理解它整个过程。根据前面的文章,我们可以知道以下基本公式,这些是后续推导的基石,离开了这些,就像<<围城>>里面说的,彷佛要在半空造房子。


基本公式

                                                        \dpi{120} \bg_white \fn_jvn \\v_n =F^T_nE_nw_n /\lambda \\ t_n =E_nw_n \\u_n = F_nv_n \\ p_n = \frac{E_n^Tt_n}{\left \| t_n \right \|^2} \\ q_n= \frac{F_n^Tt_n}{\left \| u_n \right \|^2}\\ r_n = \frac{F_n^Tt_n}{\left \| t_n \right \|^2} \\E_{n+1} = E_{n} - t_np_n^T \\F_{n+1} = F_{n} - t_nr_n^T

 

根据E^TFF^TEw=\lambda ^2 w,w为其最大特征值对应的特征向量,同理得到v

 

基本性质推导

性质一

                                                           \\v_n =F^T_nE_nw_n /\lambda = F^T_nt_n /\lambda \\w_n = E^T_nF_nv_n /\lambda = E^T_nu_n /\lambda

性质二    成分t与其下级残差正交,对于任意n,则有

                                                          t_n^TE_{n+1} = 0

                                                           \\ t_n^TE_{n+1} = t_n^T(E_n-t_np_n^T)\Rightarrow \\ t_n^TE_n-t_n^Tt_n\frac{t_n^TE_n}{\left \| t_n \right \|^2} = 0

想一下这条公式的几何意义,p是怎么计算的

                                                           p_n = \frac{E_n^Tt_n}{\left \| t_n \right \|^2}

将E的各条边投影到的t的单位向量上,各长度构成p

令e为E_n上的任意一列,将e  按照t方向和t正交方向N做分解

                                                           \\e = e_t+e_N \\e_N*t = 0

跟据E_{n+1}的计算公式,我们可以知道,其对应的一列则为e_N,必然与tn正交

性质三 各级成分t相互正交,对于任意i不等于j,则有

                                                          t_i^T*t_j = 0

                                                          t_1^T*t_2 = t_1^T(E_2*w_2) = (t_1^TE_2)w_2 = 0

利用数据归纳法,假设t_1,...,t_n相互正交,那么只要证明t_{n+1}与前面的相互正交即可

                                                         \\t_n^T*t_{n+1} = t_n^T(E_{n+1}*w_{n+1}) = 0 \\t_{n-1}^T*t_{n+1} = t_{n-1}^T(E_n-t_np_n^T)w_{n+1} =0\\...

依次类推可以得到t_{n+1}与其他各成分都正交。在几何意义上,我们在性质二已经得到,每次E会将自身的成分,按列分为t的方向和其正交做分解,提取t方向,剩余t的正交方向作为残差,这一点保证了t成分之间不可能会有交集。即使w不正交,也不会影响t的正交。成分正交给回归带来一个好处,避免了多重共线的问题,

性质四                         t与后续的残差均正交

                                  根据性质二,则有    t_n^TE_{n+1} = 0

                                                         \\t_n^TE_{n+2} =t_n^T(E_{n+1} -t_{n+1}p_{n+1}^T) = 0 \\t_n^TE_{n+3} =t_n^T(E_{n+2} -t_{n+2}p_{n+2}^T) = 0 \\...                                  

知道残差矩阵,提取了t的正交方向的信息,那么t与后续残差矩阵的正交性质就容易理解

性质五  p是t关于E的回归系数,p与w的关系

                                                        w^T*p =w^T\frac{E^Tt}{\left \| t \right \|^2} =\frac{w^TE^TEw}{\left \| t \right \|^2}= \frac{t^Tt}{\left \| t \right \|^2} = 1

貌似很熟悉,但遗憾的是,w和p不大会相等。w并非E的特征向量,所以能并不保证从E中取出最大的信息

性质六

             投影轴w与后续残差正交,对于j大于i,满足

                                                      E_jw_i =0

                                                    \\ E_{i+1} w_i=(E_i-t_ip_i^T)w_i = (E_i-t_it_i^TE_i/\left \| t_i \right \|^2)*w_i\\ =t_i-t_i = 0 \\ E_{i+1} w_i=(E_i-t_ip_i^T)w_i = (E_i-t_it_i^TE_i/\left \| t_i \right \|^2)*w_i\\ =t_i-t_i = 0 \\ E_{i+2} w_i=(E_{i+1}-t_{i+1}p_{i+1}^T)w_i = (E_{i+1}*w_i-t_it_i^TE_{i+1}w_i/\left \| t_i \right \|^2) = 0\\ ....

几何上的意义是,后续残差E投影到w值为0,这一点也很容易理解,因为前面已经将w方向的成分提取完,残差中不可能再有w上的成分

性质七

                           投影轴 w与后续回归系数p正交,i<j

                                                  w_i^Tp_j =0

                                                 \\w_i^Tp_{i+1}= w_i^T(E_{i+1}^Tt_{i+1})/\left \| t_{i+1}\right \|^2 \\ E_{i+1}w_i = 0 \Rightarrow w_i^Tp_{i+1} = 0\\ w_i^Tp_{i+l}= w_i^T(E_{i+l}^Tt_{i+l})/\left \| t_{i+1l}\right \|^2 \\E_{i+l}w_i = 0 \Rightarrow w_i^Tp_{i+l} = 0

这条其实算是性质六的推论

性质八  投影轴w相互之间正交

                                        w_i^Tw_j =0

                                         w_i^Tw_j =w_i^TE_j^TF_jv_j = 0

从几何角度来看,由于w_i轴上的成分已经提取完,后续的投影轴继续在这边投影得到的只会是0,因此不会有什么意义

性质九  任意残差矩阵中的变异信息量等于下一级的残差矩阵的变异信息加上本次提取的信息

                                         \left \| E_n \right \|^2 = \left \| E_{n+1} \right \|^2+\left \| t_n \right \|^2*\left \| p_n \right \|^2

令 e_{n,j}属于E_{n}的第j列,e_{n+1,j}属于E_{n+1}的第j列,p_{n,j}属于p_{n}第j各系数

则有

                                          e_{n,j} = e_{n+1,j}+p_{n,j}t_n

由于e_{n+1,j}t_n正交,因此有 

                                         \left \| e_{n,j} \right \|^2 = \left \| e_{n+1,j}\right \|^2+\left \| p_{n,j}t_n \right \|^2

各列合并,可以推出上式

性质十 假设矩阵 E1 的秩为r,则有

                                          \left \| E_1 \right \|^2 = \sum _i^r\left \| t_i \right \|^2*\left \| p_i \right \|^2

                                         \left \| F_1 \right \|^2 = \sum _i^r\left \| t_i \right \|^2*\left \| r_i \right \|^2+F^*

则提取r个成分,由于各成分正交,每取出一个正交成分,残差矩阵的秩会减一。

各成分对E1和F1的变异解释能力分别为

                                         \\b_i = \frac{\left \| t_i \right \|^2*\left \| p_i \right \|^2}{\left \| E_1 \right \|^2} \\d_i = \frac{\left \| t_i \right \|^2*\left \| r_i \right \|^2}{\left \| F_1 \right \|^2}

同理可以得到累加变异解释能力

                                       \\B_i = \sum_i^r \frac{\left \| t_i \right \|^2*\left \| p_i \right \|^2}{\left \| E_1 \right \|^2} \\D_i = \sum_i^r\frac{\left \| t_i \right \|^2*\left \| r_i \right \|^2}{\left \| F_1 \right \|^2}

性质十二 任意成分t是原E1的线性组合

                                         t_n = E_1l

证明

                                     \small \\ E_1 = E_1 \\ E_2 = E_1-t_1p_1^T = E_1-E_1w_1p_1^T=E_1(I-w_1p_1^T) \\ E_n = E_{n-1}-t_{n-1}p_{n-1}^T= E_{n-1}(I-w_{n-1}*p_{n-1}^T) \\=E_1\prod_i^{n-1}(I-w_ip_i^T) \\t_n = E_nw_n=E_1\prod_i^{n-1}(I-w_ip_i^T)w_n \\l = \prod_i^{n-1}(I-w_ip_i^T)w_n


有了这些基本性质,后面讨论PLS的优化和其他性质就容易多了
值得注意的是,w虽然是两两正交,甚至t也两两正交
但是不并存在 En = E1*wn,原因是p不等于w,如果p = w,那么就成立,并且p之间并不存在一定正交的情况。后续会对为什么p不能等于w展开讨论。

参考:

《偏最小二乘法的线性与非线性方法》

 

 

 

### 回答1: C++实现最小二乘法的步骤如下: 1. 定义自变量x、因变量y和最小二乘法的系数a、b ```c++ double x[n], y[n]; double a, b; ``` 2. 输入自变量x和因变量y的数据 ```c++ for (int i = 0; i < n; i++) { cin >> x[i] >> y[i]; } ``` 3. 计算自变量和因变量的平均值 ```c++ double x_mean = accumulate(x, x + n, 0.0) / n; double y_mean = accumulate(y, y + n, 0.0) / n; ``` 4. 计算最小二乘法的系数a、b ```c++ double numerator = 0.0, denominator = 0.0; for (int i = 0; i < n; i++) { numerator += (x[i] - x_mean) * (y[i] - y_mean); denominator += pow(x[i] - x_mean, 2.0); } a = numerator / denominator; b = y_mean - a * x_mean; ``` 5. 输出最小二乘法的系数a、b ```c++ cout << "a = " << a << ", b = " << b << endl; ``` 完整代码如下: ```c++ #include <iostream> #include <numeric> #include <cmath> using namespace std; int main() { int n; cin >> n; double x[n], y[n]; double a, b; for (int i = 0; i < n; i++) { cin >> x[i] >> y[i]; } double x_mean = accumulate(x, x + n, 0.0) / n; double y_mean = accumulate(y, y + n, 0.0) / n; double numerator = 0.0, denominator = 0.0; for (int i = 0; i < n; i++) { numerator += (x[i] - x_mean) * (y[i] - y_mean); denominator += pow(x[i] - x_mean, 2.0); } a = numerator / denominator; b = y_mean - a * x_mean; cout << "a = " << a << ", b = " << b << endl; return 0; } ``` ### 回答2: 最小二乘法是一种常用的数学方法,用于拟合数据点并找出最佳的拟合曲线。该方法的目标是通过最小化数据点与拟合曲线之间的垂直距离的平方和来找出最佳拟合曲线。 在最小二乘法中,首先需要根据给定的数据点,选择一个拟合曲线的函数形式。常见的函数形式包括线性、多项式、指数等。然后,通过调整曲线的参数,使得在数据点上的拟合误差最小化。 具体而言,最小二乘法通过以下步骤进行拟合: 1. 建立函数模型:选择适当的函数形式,例如线性回归模型。 2. 建立拟合目标函数:将数据点代入函数模型中,计算实际值与拟合值之间的差距,将差距的平方和作为目标函数。 3. 最小化目标函数:通过对目标函数求偏导数,令导数等于零,求得最小化目标函数的参数值。 4. 检验结果:对拟合曲线进行验证,并计算拟合优度等指标,以评估拟合效果。 最小二乘法具有以下特点: 1. 理论基础:最小二乘法建立在最小化误差的平方和的基础上,数学性质良好。 2. 普适性:最小二乘法适用于各种拟合问题,能够在一定程度上解决非线性问题。 3. 稳定性:最小二乘法对于存在噪声或异常值的数据具有较好的稳定性。 4. 易于实现:最小二乘法的实现相对简单,可以使用各种数值方法进行求解。 总之,最小二乘法是一种常用的拟合方法,在数据分析、统计学以及工程领域中应用广泛,能够有效地找到最佳的拟合曲线。 ### 回答3: 最小二乘法是一种用于拟合数据的数学方法。它的目标是找到一条直线或曲线,使得该直线/曲线与实际数据之间的残差平方和最小。 在最小二乘法中,我们假设数据之间存在线性关系,并试图找到最佳的拟合线/曲线来表示这种关系。 最小二乘法的核心思想是通过最小化残差平方和来确定最佳拟合线/曲线。残差是每个数据点与拟合线之间的垂直距离。通过对所有数据点的残差进行平方求和,并寻找最小化该平方和的拟合线,可以找到最佳的拟合结果。 为了求解最小二乘法,我们可以使用一系列数学技巧和方程推导。其中最常用的方法是求解正规方程或使用矩阵运算进行求解。最小二乘法的求解过程涉及到对数据进行预处理、构建方程组、求解方程组和评估拟合结果等步骤。 最小二乘法在实际应用中具有广泛的应用。它可以用于回归分析、统计推断、数据拟合等领域。最小二乘法的结果通常可以通过拟合直线/曲线来预测未知数据,或者用于对数据进行模型参数的估计。此外,最小二乘法还可以用于数据去噪、信号处理、机器学习等其他领域。 总的来说,最小二乘法是一种强大的数据分析和拟合工具。通过最小化残差平方和,它可以找到最佳的拟合线/曲线,并提供了可信的模型参数估计和预测能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值