偏最小二乘回归
算法原理
给定p个自变量
,各自有n个样本点,则自变量和因变量矩阵为
该算法的基本思想是,从原始变量中提取出K对潜在成份对tk和uk,k=1,2,...K;并通过潜在成分对数据进行建模。模型构建时要求潜在成份对能最大限度的代表原始数据X和Y的同时,它们之间的协方差最大化。对于抽取潜在成份对
,偏最小二乘需要满足如下优化条件:
- 变量t1,能尽可能好的表示矩阵的信息,即
-
将这三个条件整合起来,可以构成一个t1和u1之间协方差最大化的极值问题:
另外潜在成份是原始变量的线性变换,可表示为:在上述约束条件下,求的极值,
已标准化。
我们采用拉格朗日乘子,记
推导后可以得到: