在众多科学与工程学科,如物理、化学工程、统计学、经济学、生物学、信号处理、自动控制、系统理论、医学和军事工程等中,许多问题都可能落脚到求解矩阵方程
Ax=b
。根据数据向量
b
和数据矩阵
1. 超定矩阵方程
m>n
, 并且数据矩阵
A
和数据向量
2. 盲矩阵方程 仅数据向量
b
已知,数据矩阵
3. 欠定稀疏矩阵方程
m<n
,数据矩阵
A
和数据向量
这里主要介绍超定矩阵方程的最小二乘求解方法。最小二乘方法是最常用的线性参数估计方法。早在高斯的年代,最小二乘方法就用来对平面上的点拟合线,对高维空间的点拟合超平面。许多从事科学研究的朋友可能对这个方法已经很熟悉,这里主要是一个简要的综述,了解最小二乘方法的原理、最优解的条件以及不足。
1. 普通最小二乘
普通最小二乘估计是大家最熟悉的、也是用得最多的最小二乘方法。
考虑超定矩阵方程
假定数据向量存在加性观测误差或噪声,即
b=b0+e
,其中
b0
和
e
分别是无误差的数据向量和误差向量。
为了抑制误差对矩阵方程求解的影响,引入一个校正向量
上述的这一思想可用下面的优化问题进行描述
于是,矩阵方程 Ax=b 的普通最小二乘解为
展开上面的矩阵相乘的式子,有
两边对 x 求导数,并且令导数为0,则有
从而可知,解 x 必然满足
该方程又称正则方程。
当
m×n
矩阵
A
具有不同的秩时,上述方程的解有两种不同的情况。
情况 1 超定方程(
由于
ATA
非奇异,所以方程有唯一的解
情况 2 对于秩亏缺( rank(A)<n )的超定方程,在最小二乘解为
其中 B† 代表矩阵 B 的 Moore-Penrose 逆矩阵。(matlab中可以用函数pinv(B)计算)
2. 数据最小二乘
与普通最小二乘不同,这里假定数据向量
考虑用校正矩阵
令
(A+△A)x=b
,实现
此时, x 的最优解为
这就是所谓的数据最小二乘(data least squares, DLS)法。
利用 Lagrange 乘子法,可以将约束的数据最小二乘问题转变为无约束的优化问题
令共轭梯度矩阵
∂L(X)/∂△AH
等于零矩阵,可以得到
△A=−λxH
。带入约束条件
(A+△A)x=b
,有
λ=Ax−bxHx
,从而有
△A=−(Ax−b)xHxHx
。于是,可有下面的目标函数
利用迹的性质 tr(BC)=tr(CB) ,立即有
由此可知超定方程 Ax=b 的数据最小二乘解为
3. Tikhonov 正则化(正则最小二乘)
在求解超定矩阵方程
Am×nxn×1=bm×1
的时候,普通最小二乘法和数据最小二乘需要满足两个基本假设 :1 数据矩阵
A
非奇异或者满列秩;2 数据向量
Tikhonov正则化最小二乘方法就是为了解决数据矩阵秩亏缺或者存在误差时而提出的。
正则化最小二乘的代价函数为
式中 λ≥0 称为正则化参数。
对代价函数关于变元
x
求共轭梯度,并令其为零
可得
Tikhonov 正则化方法的本质是:通过对秩亏缺矩阵
A
的协方差矩阵
若数据矩阵
A
满列秩,但存在误差或者噪声,就需要采用与 Tikhonov 正则化相反的做法,对被噪声污染的协方差矩阵
为了进一步改善 Tikhonov 正则化求解奇异和病态方程组的结果,可以使用迭代 Tikhonov 正则化:令初始解向量
x0=0
和初始残差向量
r0=b
,则解向量和残差向量可以用以下迭代公式进行更新
Tikhonov 正则化解具有以下重要性质:
1. 线性 Tikhonov 正则化最小二乘问题的解
x^Tik=(AHA+λI)−1AHb
是观测数据向量
b
的线性函数。、
2.
3. λ→∞ 时的极限特性 当 λ→∞ 时, Tikhonov 正则化的最小二乘问题的最优解收敛为零向量,即 limλ→∞x^Tik=0 。
4. 正则化路径 当正则化参数 λ 在 [0,∞) 区间变化时, Tikhonov 正则化最小二乘问题的最优解是正则化参数的光滑函数,即当 λ 减小为零时,最优解收敛为 Moore-Penrose 解 ; 而当 λ 增大时,最优解收敛为零向量解。
Tikhonov 正则化方法可以有效防止矩阵
A
秩亏缺时最小二乘解