最小二乘法

在众多科学与工程学科,如物理、化学工程、统计学、经济学、生物学、信号处理、自动控制、系统理论、医学和军事工程等中,许多问题都可能落脚到求解矩阵方程 Ax=b 。根据数据向量 b 和数据矩阵 ARm×n 的不同,矩阵方程有以下三种主要类型:
1. 超定矩阵方程 m>n , 并且数据矩阵 A 和数据向量 b 均已知,其中之一或者二者可能存在误差或者干扰。
2. 盲矩阵方程 仅数据向量 b 已知,数据矩阵 A 未知。
3. 欠定稀疏矩阵方程 m<n ,数据矩阵 A 和数据向量 b 均已知,但未知向量 x 为稀疏向量。

这里主要介绍超定矩阵方程的最小二乘求解方法。最小二乘方法是最常用的线性参数估计方法。早在高斯的年代,最小二乘方法就用来对平面上的点拟合线,对高维空间的点拟合超平面。许多从事科学研究的朋友可能对这个方法已经很熟悉,这里主要是一个简要的综述,了解最小二乘方法的原理、最优解的条件以及不足。


1. 普通最小二乘

普通最小二乘估计是大家最熟悉的、也是用得最多的最小二乘方法。
考虑超定矩阵方程 Ax=b, 其中 b m×1 的数据向量, A m×n 的数据矩阵, 并且 m>n
假定数据向量存在加性观测误差或噪声,即 b=b0+e ,其中 b0 e 分别是无误差的数据向量和误差向量。
为了抑制误差对矩阵方程求解的影响,引入一个校正向量 b, 并用它去“扰动”有误差的数据向量 b 。我们的目标是,使校正项 b “尽可能小”从而实现

Ax=b+bAx=b
的转换。也就是说,如果直接选择校正向量 b=Axb ,并且使之“尽可能小”,则可以实现无误差的矩阵方程 Ax=b 的求解。

上述的这一思想可用下面的优化问题进行描述

minx||b||2=||Axb||22=(Axb)TAxb)

于是,矩阵方程 Ax=b 的普通最小二乘解为
x^LS=argminx||Axb||22

展开上面的矩阵相乘的式子,有

ϕ=xTATAxxTATbbTAx+bTb

两边对 x 求导数,并且令导数为0,则有
dϕdx=2ATA2ATb=0

从而可知,解 x 必然满足
ATAx=ATb

该方程又称正则方程。

m×n 矩阵 A 具有不同的秩时,上述方程的解有两种不同的情况。
情况 1 超定方程(m>n )满列秩,即 rank(A)=n
由于 ATA 非奇异,所以方程有唯一的解

xLA=(ATA)1ATb

情况 2 对于秩亏缺( rank(A)<n )的超定方程,在最小二乘解为
xLS=(ATA)ATb

其中 B 代表矩阵 B 的 Moore-Penrose 逆矩阵。(matlab中可以用函数pinv(B)计算)


2. 数据最小二乘

与普通最小二乘不同,这里假定数据向量 b 无观测误差或噪声,只有数据矩阵 A=A0+E 有观测误差或噪声,并且误差矩阵 E 的每一个误差元素服从零均值、等方差的独立高斯分布。

考虑用校正矩阵 A 干扰有误差的数据矩阵 A , 使得A+A=A0+E+AA0

(A+A)x=b ,实现

(A+A)x=b A0x=b

此时, x 的最优解为
x^DLS=argminx||A||22  subject to bRange(A+A)

这就是所谓的数据最小二乘(data least squares, DLS)法。

利用 Lagrange 乘子法,可以将约束的数据最小二乘问题转变为无约束的优化问题

minL(x)=tr(A(A)H)+λH(Ax+Axb)

令共轭梯度矩阵 L(X)/AH 等于零矩阵,可以得到 A=λxH 。带入约束条件 (A+A)x=b ,有 λ=AxbxHx ,从而有 A=(Axb)xHxHx 。于是,可有下面的目标函数

J(x)=||A||22=tr(A(A)H)=tr((Axb)xHxHxx(Axb)HxHx),

利用迹的性质 tr(BC)=tr(CB) ,立即有
J(x)=tr((Axb)H(Axb)xHx)=(Axb)H(Axb)xHx

由此可知超定方程 Ax=b 的数据最小二乘解为
x^DLS=argminx(Axb)H(Axb)xHx


3. Tikhonov 正则化(正则最小二乘)

在求解超定矩阵方程 Am×nxn×1=bm×1 的时候,普通最小二乘法和数据最小二乘需要满足两个基本假设 :1 数据矩阵 A 非奇异或者满列秩;2 数据向量 b 或者数据矩阵 A 存在加性噪声或误差。

Tikhonov正则化最小二乘方法就是为了解决数据矩阵秩亏缺或者存在误差时而提出的。

正则化最小二乘的代价函数为

J(x)=12(||Axb||22+λ||x||22)

式中 λ0 称为正则化参数。

对代价函数关于变元 x 求共轭梯度,并令其为零

J(x)xH=xH((Axb)H(Axb)+λxHx)=AHAxAHb+λx=0

可得

x^Tik=(AHA+λI)1AHb

Tikhonov 正则化方法的本质是:通过对秩亏缺矩阵 A 的协方差矩阵 AHA 的每个对角元素加一个很小的扰动 λ ,使得奇异的协方差矩阵 AHA 的求逆变成非奇异矩阵 AHA+λI 的求逆,从而大大改善矩阵秩亏缺矩阵方程 Ax=b 的数值稳定性。

若数据矩阵 A 满列秩,但存在误差或者噪声,就需要采用与 Tikhonov 正则化相反的做法,对被噪声污染的协方差矩阵 AHA 加一个很小的负扰动矩阵 λI ,使 AHA 去干扰。这种使用负的正则化参数 λ Tikhonov 正则化方法称为反正则化方法,其解为

x^=(AHAλI)1AHb

为了进一步改善 Tikhonov 正则化求解奇异和病态方程组的结果,可以使用迭代 Tikhonov 正则化:令初始解向量 x0=0 和初始残差向量 r0=b ,则解向量和残差向量可以用以下迭代公式进行更新

xk=xk1+(AHA+λI)1AHrk1rk=bAxk},k=1,2,

Tikhonov 正则化解具有以下重要性质:
1. 线性 Tikhonov 正则化最小二乘问题的解 x^Tik=(AHA+λI)1AHb 是观测数据向量 b 的线性函数。、
2. λ0 时的极限特性 当正则化参数 λ0 时,Tikhonov 正则化最小二乘问题的解收敛为普通最小二乘解或 Moore-Penrose limλx^Tik=x^LS=Ab=(AHA)1AHb 。解点 x^Tik 在满足 AH(Axb)=0 的所有可行点中具有最小 L2 范数

x^Tik=argminAT(bAx)=0||x||2

3. λ 时的极限特性 当 λ 时, Tikhonov 正则化的最小二乘问题的最优解收敛为零向量,即 limλx^Tik=0
4. 正则化路径 当正则化参数 λ [0,) 区间变化时, Tikhonov 正则化最小二乘问题的最优解是正则化参数的光滑函数,即当 λ 减小为零时,最优解收敛为 Moore-Penrose 解 ; 而当 λ 增大时,最优解收敛为零向量解。

Tikhonov 正则化方法可以有效防止矩阵 A 秩亏缺时最小二乘解 x^LS=(ATA)1ATb 的发散,明显改善最小二乘的收敛性能,因此被广泛应用。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值