考虑这样一个问题,
y
=
A
x
+
ε
(1)
y = A x + \varepsilon \tag{1}
y=Ax+ε(1)
其中
y
y
y为测量,
A
A
A为测量关系矩阵,
x
x
x为状态,
ε
\varepsilon
ε为噪声(服从高斯分布)。已知
y
y
y和
A
A
A,
ε
\varepsilon
ε未知,请求解
x
x
x。
加权最小二乘算法:
权重矩阵
W
W
W取各个测量的标准差之逆,
W
=
[
1
σ
y
1
1
σ
y
2
⋱
1
σ
y
n
]
(2)
W = \begin{bmatrix} \frac{1}{\sigma _{y_1}} & & &\\ & \frac{1}{\sigma _{y_2}} & &\\ & & \ddots &\\ & & & \frac{1}{\sigma _{y_n}}\\ \end{bmatrix} \tag{2}
W=⎣⎢⎢⎢⎡σy11σy21⋱σyn1⎦⎥⎥⎥⎤(2)
则有,
W
y
=
W
A
x
(3)
Wy=WAx \tag{3}
Wy=WAx(3)
(
W
A
)
T
W
y
=
(
W
A
)
T
W
A
x
(4)
(WA)^TWy=(WA)^TWAx \tag{4}
(WA)TWy=(WA)TWAx(4)
[
(
W
A
)
T
W
A
]
−
1
(
W
A
)
T
W
y
=
x
(5)
[(WA)^TWA]^{-1}(WA)^TWy=x \tag{5}
[(WA)TWA]−1(WA)TWy=x(5)
(
A
T
W
T
W
A
)
−
1
A
T
W
T
W
⋅
y
=
x
(6)
(A^TW^TWA)^{-1}A^TW^TW \cdot y=x \tag{6}
(ATWTWA)−1ATWTW⋅y=x(6)
W
T
W
W^TW
WTW为各个测量的方差之逆,即测量的协方差矩阵之逆,记
C
=
W
T
W
C=W^TW
C=WTW,故公式(6)可写成,
(
A
T
C
A
)
−
1
A
T
C
⋅
y
=
x
(7)
(A^TCA)^{-1}A^TC\cdot y =x \tag{7}
(ATCA)−1ATC⋅y=x(7)
又测量
y
y
y的协方差矩阵为
C
−
1
C^{-1}
C−1,
C
−
1
=
[
σ
y
1
2
σ
y
2
2
⋱
σ
y
n
2
]
(8)
C^{-1}=\begin{bmatrix} \sigma ^2_{y_1} & & &\\ & \sigma ^2_{y_2} & &\\ & & \ddots &\\ & & & \sigma ^2_{y_n}\\ \end{bmatrix} \tag{8}
C−1=⎣⎢⎢⎡σy12σy22⋱σyn2⎦⎥⎥⎤(8)
根据加权最小二乘算法可知,求解出的状态的协方差矩阵为,
(
A
T
C
A
)
−
1
A
T
C
⋅
C
−
1
⋅
[
(
A
T
C
A
)
−
1
A
T
C
]
T
(A^TCA)^{-1}A^TC\cdot C^{-1} \cdot [(A^TCA)^{-1}A^TC]^T
(ATCA)−1ATC⋅C−1⋅[(ATCA)−1ATC]T
(
A
T
C
A
)
−
1
A
T
⋅
[
(
A
T
C
A
)
−
1
A
T
C
]
T
(A^TCA)^{-1}A^T \cdot [(A^TCA)^{-1}A^TC]^T
(ATCA)−1AT⋅[(ATCA)−1ATC]T
(
A
T
C
A
)
−
1
A
T
⋅
C
T
A
(
A
T
C
A
)
−
T
(A^TCA)^{-1}A^T \cdot C^TA(A^TCA)^{-T}
(ATCA)−1AT⋅CTA(ATCA)−T
又
C
C
C是对角阵,有
C
T
=
C
C^T=C
CT=C,
(
A
T
C
A
)
−
T
(A^TCA)^{-T}
(ATCA)−T
(
A
T
C
T
A
)
−
1
(A^TC^TA)^{-1}
(ATCTA)−1
(
A
T
C
A
)
−
1
(9)
(A^TCA)^{-1} \tag{9}
(ATCA)−1(9)
取
A
T
C
A
A^TCA
ATCA分析,增加观测数目之后,其变为,
[
A
A
0
]
T
[
C
C
0
]
[
A
A
0
]
\begin{bmatrix} A\\ A_0 \end{bmatrix} ^T \begin{bmatrix} C & \\ & C_0 \end{bmatrix} \begin{bmatrix} A \\ A_0 \end{bmatrix}
[AA0]T[CC0][AA0]
[
A
T
A
0
T
]
[
C
C
0
]
[
A
A
0
]
\begin{bmatrix} A^T & A^T_0 \end{bmatrix} \begin{bmatrix} C &\\ & C_0 \end{bmatrix} \begin{bmatrix}A \\ A_0 \end{bmatrix}
[ATA0T][CC0][AA0]
[
A
T
C
A
0
T
C
0
]
[
A
A
0
]
\begin{bmatrix} A^TC & A^T_0C_0 \end{bmatrix} \begin{bmatrix} A\\ A_0 \end{bmatrix}
[ATCA0TC0][AA0]
A
T
C
A
+
A
0
T
C
0
A
0
A^TCA+A^T_0C_0A_0
ATCA+A0TC0A0
A
0
T
C
0
A
0
A^T_0C_0A_0
A0TC0A0正定,该值是增加的,它的逆,即协方差矩阵是减小的。得证!
测量铅笔的小例子:
已知用直尺对铅笔长度进行了
n
n
n次测量,每次测量结果为
y
1
,
y
2
,
.
.
.
,
y
n
y_1,y_2,...,y_n
y1,y2,...,yn,每次测量都服从同一个正态分布
N
(
0
,
σ
2
)
N(0,\sigma ^2)
N(0,σ2),状态
x
x
x表示铅笔长度。
依据加权最小二乘算法,测量向量为
[
y
1
,
y
2
,
.
.
.
,
y
n
]
T
[y_1,y_2,...,y_n]^T
[y1,y2,...,yn]T,测量关系矩阵
A
A
A为,
A
=
[
1
1
⋮
1
]
A = \begin{bmatrix} 1 \\ 1\\ \vdots \\ 1 \end{bmatrix}
A=⎣⎢⎢⎢⎡11⋮1⎦⎥⎥⎥⎤
权重矩阵
W
W
W为,
W
=
[
1
σ
1
σ
⋱
1
σ
]
W=\begin{bmatrix} \frac{1}{\sigma} & & &\\ & \frac{1}{\sigma} & &\\ & & \ddots & \\ & & & \frac{1}{\sigma} \end{bmatrix}
W=⎣⎢⎢⎡σ1σ1⋱σ1⎦⎥⎥⎤
则,加权最小二乘解为,
x
=
(
A
T
C
A
)
−
1
A
T
C
⋅
y
x=(A^TCA)^{-1}A^TC\cdot y
x=(ATCA)−1ATC⋅y
其中
C
C
C为
W
T
W
W^TW
WTW,故
A
T
C
A
=
n
σ
2
A^TCA=\frac{n}{\sigma ^2}
ATCA=σ2n
A
T
C
=
[
1
σ
2
1
σ
2
⋯
1
σ
2
]
A^TC=\begin{bmatrix} \frac{1}{\sigma ^2} & \frac{1}{\sigma ^2} & \cdots & \frac{1}{\sigma ^2} \end{bmatrix}
ATC=[σ21σ21⋯σ21]
(
A
T
C
A
)
−
1
⋅
A
T
C
=
σ
2
n
[
1
σ
2
1
σ
2
⋯
1
σ
2
]
=
1
n
[
1
1
⋯
1
]
(A^TCA)^{-1} \cdot A^TC = \frac{\sigma ^2}{n}\begin{bmatrix} \frac{1}{\sigma ^2} & \frac{1}{\sigma ^2} & \cdots & \frac{1}{\sigma ^2} \end{bmatrix} = \frac{1}{n} \begin{bmatrix} 1 & 1 & \cdots & 1\end{bmatrix}
(ATCA)−1⋅ATC=nσ2[σ21σ21⋯σ21]=n1[11⋯1]
x
=
1
n
[
1
1
⋯
1
]
[
y
1
y
2
⋮
y
n
]
=
y
1
+
y
2
+
⋯
+
y
n
n
(10)
x=\frac{1}{n} \begin{bmatrix} 1 & 1 & \cdots& 1\end{bmatrix} \begin{bmatrix}y_1 \\ y_2 \\ \vdots\\ y_n \end{bmatrix}=\frac{y_1+y_2+\cdots+y_n}{n} \tag{10}
x=n1[11⋯1]⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤=ny1+y2+⋯+yn(10)
状态的协方差矩阵为,
(
A
T
C
A
)
−
1
=
σ
2
n
(11)
(A^TCA)^{-1}=\frac{\sigma ^2}{n} \tag{11}
(ATCA)−1=nσ2(11)
故由上式也可知,随着观测数目的增加,状态的协方差是减小的。
量铅笔长度问题的另一种思路,
高斯分布的性质:
(1)已知随机变量 X X X服从 N ( μ 1 , σ 1 2 ) N(\mu _1, \sigma _1^2) N(μ1,σ12),随机变量 Y Y Y服从 N ( μ 2 , σ 2 2 ) N(\mu _2, \sigma _2^2) N(μ2,σ22),则随机变量 X + Y X+Y X+Y服从 N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) N(\mu _1+\mu_2, \sigma _1^2+\sigma_2^2) N(μ1+μ2,σ12+σ22)。
(2)已知随机变量 X X X服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),有一常数 a a a,则随机变量 a X aX aX服从 N ( a μ , a 2 σ 2 ) N(a\mu,a^2\sigma^2) N(aμ,a2σ2)。
故已知随机变量
y
i
y_i
yi服从分布
N
(
0
,
σ
2
)
N(0,\sigma^2)
N(0,σ2),随机变量
x
x
x,
x
=
y
1
+
y
2
+
⋯
+
y
n
n
x=\frac{y_1+y_2+\cdots+y_n}{n}
x=ny1+y2+⋯+yn
的均值为0,方差为
(
1
n
)
2
⋅
(
σ
2
+
σ
2
+
⋯
+
σ
2
)
=
1
n
2
⋅
n
σ
2
=
σ
2
n
(\frac{1}{n})^2\cdot(\sigma^2+\sigma^2+\cdots+\sigma^2) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}
(n1)2⋅(σ2+σ2+⋯+σ2)=n21⋅nσ2=nσ2
同样的,推导出了状态的协方差!