0
对于线性的反问题 G m = d \mathbf{Gm=d} Gm=d,有三种不同的方法求解:
- 长度理论
- 广义逆
- 概率密度
上述三种方法从不同的角度出发,但其推导的最终结果是相同的。而且,对于反问题可以从向量空间的角度来进行考虑,这一观点对于上述三种方法均是适用的,用向量空间可以更容易和形象的去探索非唯一性的本质。
1 非唯一性和零向量的关系
假设,反问题
G
m
=
d
\mathbf{Gm=d}
Gm=d的解不是唯一的(非唯一性),那么必然至少存在两个不同的解,记为
m
(
1
)
,
m
(
2
)
(
m
(
1
)
≠
m
(
2
)
)
\mathbf{m^{(1)},m^{(2)}(m^{(1)}{\neq}m^{(2)})}
m(1),m(2)(m(1)=m(2)),则这两个解均满足方程:
G
m
(
1
)
=
d
G
m
(
2
)
=
d
\begin{array}{l} \mathbf{G m}^{(1)}=\mathbf{d} \\ \mathbf{G} \mathbf{m}^{(2)}=\mathbf{d} \end{array}
Gm(1)=dGm(2)=d
那么,两式做差得到
G
(
m
(
1
)
−
m
(
2
)
)
=
0
\mathbf{G}\left(\mathbf{m}^{(1)}-\mathbf{m}^{(2)}\right)=0
G(m(1)−m(2))=0
所以,存在零向量
m
n
u
l
l
=
m
(
1
)
−
m
(
2
)
\mathbf{m^{null}=m^{(1)}-m^{(2)}}
mnull=m(1)−m(2)(
m
n
u
l
l
\mathbf{m^{null}}
mnull是非零的)。
那么,齐次方程
G
m
=
0
\mathbf{Gm=0}
Gm=0存在非平凡解。
反过来也是正确的,假设齐次方程
G
m
=
0
\mathbf{Gm=0}
Gm=0存在非平凡解
m
n
u
l
l
\mathbf{m^{null}}
mnull,那么存在多个满足以下形式的解(以两个为例):
m
(
1
)
=
m
+
α
1
m
n
u
l
l
\mathbf{m^{(1)}=m+\alpha_1m^{null}}
m(1)=m+α1mnull
m
(
2
)
=
m
+
α
2
m
n
u
l
l
\mathbf{m^{(2)}=m+\alpha_2m^{null}}
m(2)=m+α2mnull
则有,
G
m
(
1
)
=
d
G
m
(
2
)
=
d
\begin{array}{l} \mathbf{G m}^{(1)}=\mathbf{d} \\ \mathbf{G} \mathbf{m}^{(2)}=\mathbf{d} \end{array}
Gm(1)=dGm(2)=d
所以,反问题
G
m
=
d
\mathbf{Gm=d}
Gm=d的解是不唯一的。
从以上的论述可知,反问题的非唯一性意味着存在零向量。
如果一个给定的反问题具有
q
q
q个不同的零解,那么解的一般形式为:
m
g
e
n
=
m
p
a
r
+
∑
i
=
1
q
α
i
m
n
u
l
l
(
i
)
\mathbf{m}^{\mathrm{gen}}=\mathbf{m}^{\mathrm{par}}+\sum_{i=1}^{q} \alpha_{i} \mathbf{m}^{\mathrm{null}(i)}
mgen=mpar+i=1∑qαimnull(i)
其中,
0
≤
q
≤
M
0\leq{q}\leq{M}
0≤q≤M,
M
M
M为模型参数的个数,也就是说线性不相关的零向量的数量不会多于未知量(模型参数)的数量。
简单反问题的零向量,举例
如下一个非常简单的方程,该方程表明数据是对四个模型参数均值的测量:
G
m
=
[
1
4
1
4
1
4
1
4
]
[
m
1
m
2
m
3
m
4
]
=
[
d
1
]
\mathbf{G} \mathbf{m}=\left[\begin{array}{llll} \frac{1}{4} & \frac{1}{4} & \frac{1}{4} & \frac{1}{4} \end{array}\right]\left[\begin{array}{l} m_{1} \\ m_{2} \\ m_{3} \\ m_{4} \end{array}\right]=\left[d_{1}\right]
Gm=[41414141]⎣⎢⎢⎡m1m2m3m4⎦⎥⎥⎤=[d1]
这个方程的一个明显的解(实际上,这是最小长度解)是
m
=
[
d
1
,
d
1
,
d
1
,
d
1
]
T
\mathbf{m}=[d_1,d_1,d_1,d_1]^{T}
m=[d1,d1,d1,d1]T
有三个线性无关的零解:
m
null
(
1
)
=
[
1
−
1
0
0
]
m
null
(
2
)
=
[
1
0
−
1
0
]
m
null
(
3
)
=
[
1
0
0
−
1
]
\mathbf{m}^{\text {null }(1)}=\left[\begin{array}{r} 1 \\ -1 \\ 0 \\ 0 \end{array}\right] \quad \mathbf{m}^{\text {null }(2)}=\left[\begin{array}{r} 1 \\ 0 \\ -1 \\ 0 \end{array}\right] \quad \mathbf{m}^{\text {null }(3)}=\left[\begin{array}{r} 1 \\ 0 \\ 0 \\ -1 \end{array}\right]
mnull (1)=⎣⎢⎢⎡1−100⎦⎥⎥⎤mnull (2)=⎣⎢⎢⎡10−10⎦⎥⎥⎤mnull (3)=⎣⎢⎢⎡100−1⎦⎥⎥⎤
那么,一般解是:
m
g
e
n
=
[
d
1
d
1
d
1
d
1
]
+
α
1
[
1
−
1
0
0
]
+
α
2
[
1
0
−
1
0
]
+
α
3
[
1
0
0
−
1
]
\mathbf{m}^{\mathrm{gen}}=\left[\begin{array}{c} d_{1} \\ d_{1} \\ d_{1} \\ d_{1} \end{array}\right]+\alpha_{1}\left[\begin{array}{r} 1 \\ -1 \\ 0 \\ 0 \end{array}\right]+\alpha_{2}\left[\begin{array}{r} 1 \\ 0 \\ -1 \\ 0 \end{array}\right]+\alpha_{3}\left[\begin{array}{r} 1 \\ 0 \\ 0 \\ -1 \end{array}\right]
mgen=⎣⎢⎢⎡d1d1d1d1⎦⎥⎥⎤+α1⎣⎢⎢⎡1−100⎦⎥⎥⎤+α2⎣⎢⎢⎡10−10⎦⎥⎥⎤+α3⎣⎢⎢⎡100−1⎦⎥⎥⎤
如果选择最小化解的长度
∥
m
∥
2
\|\mathbf{m}\|_2
∥m∥2,则获得最小长度解。从一般解很明显可以看出,最小长度解从来不包括任何零向量。但需要注意的是,如果使用解的简单程度的其他定义(如平直度/光滑度),那么这些解将包含零向量。
2 模型参数的局部平均
模型参数的求解有两种方法:
- 估计模型参数 m \mathbf{m} m的元素
- 估计模型参数的平均 ⟨ m ⟩ = a T m \left \langle{m}\right \rangle=\mathbf{a^Tm} ⟨m⟩=aTm
对于模型参数的平均
⟨
m
⟩
=
a
T
m
\left \langle{m}\right \rangle=\mathbf{a^Tm}
⟨m⟩=aTm,其中
a
T
\mathbf{a^T}
aT的作用就是在模型参数向量中选取某些元素,并取平均。如果这个“平均向量”大部分是由
0
0
0构成,非零元素仅“聚集在某个局部”,那么这个平均是局部的。
例如,当
M
=
8
M=8
M=8,平均向量
a
=
[
0
,
0
,
1
/
4
,
1
/
2
,
1
/
4
,
0
,
0
,
0
]
a=[0,0,1/4,1/2,1/4,0,0,0]
a=[0,0,1/4,1/2,1/4,0,0,0],是关于三个模型参数的局部平均。注意,平均向量通常要归一化从而使它的元素之和为单位
1
1
1。
估计模型参数平均值而不估计直接估计模型参数本身的优势在于,即使模型参数本身是非唯一的,也有可能识别唯一的平均值。
如:
⟨
m
⟩
=
a
T
m
g
e
n
=
a
T
m
p
a
r
+
∑
i
=
1
q
α
i
a
T
m
n
u
l
l
(
i
)
\langle\mathrm{m}\rangle=\mathbf{a}^{\mathrm{T}} \mathbf{m}^{\mathrm{gen}}=\mathbf{a}^{\mathrm{T}} \mathbf{m}^{\mathrm{par}}+\sum_{i=1}^{q} \alpha_{i} \mathbf{a}^{\mathrm{T}} \mathbf{m}^{\mathrm{null}(i)}
⟨m⟩=aTmgen=aTmpar+i=1∑qαiaTmnull(i)
如果
a
T
m
n
u
l
l
(
i
)
=
0
,
i
=
1
,
2
,
⋯
,
q
\mathbf{a}^{\mathrm{T}} \mathbf{m}^{\mathrm{null}(i)}=0,i=1,2,\cdots,q
aTmnull(i)=0,i=1,2,⋯,q,那么
⟨
m
⟩
\langle\mathrm{m}\rangle
⟨m⟩是唯一的,平均的过程完全移除了问题的非唯一性。
a
\mathbf{a}
a拥有
M
M
M个元素,并且存在
q
q
q个约束施加在
a
\mathbf{a}
a上,那么总可以找到至少一个向量与零向量抵消(或湮灭)。尽管如此,人们无法保证平均向量在某个特定模型参数周围是局部的。但是,如果
q
<
M
q<M
q<M,那么在选择
a
\mathbf{a}
a时将拥有一定的自由度,并且存在一定的可能性使平均向量至少在某种程度上是局部的。这是否能够实现取决于零向量的结构,它反过来又依赖于数据核
G
\mathbf{G}
G的结构。模型的小尺度特征在许多问题中是不可求解的,所以经常求解唯一的局部平均。