算法评价和误差分析
性能的上下界
单图像误差
ε r e s = ( 1 2 n ∑ i = 1 n d ( x i ′ , x ^ i ′ ) 2 ) 1 / 2 \varepsilon_{res} = (\frac1{2n} \sum_{i=1}^n d(x_i^\prime,\hat{x}_i^\prime)^2)^{1/2} εres=(2n1i=1∑nd(xi′,x^i′)2)1/2
双图像误差
ε r e s = 1 4 n ( ∑ i = 1 n d ( x i , x ^ i ) 2 + ∑ i = 1 n d ( x i , x ^ i ′ ) 2 ) 1 / 2 \varepsilon_{res} = \frac1{\sqrt{4n}}(\sum_{i=1}^n d(x_i,\hat{x}_i)^2 +\sum_{i=1}^n d(x_i,\hat{x}_i^\prime)^2 )^{1/2} εres=4n1(i=1∑nd(xi,x^i)2+i=1∑nd(xi,x^i′)2)1/2
最优估计算法MLE
几何误差的最小化等于MLE,因此任何实现几何误差最小化的算法的目标应该是达到MLE给出的理论界。最小化不同代价函数的其它算法可以根据它与MLE所给出的界的接近程度做性能判断。
一般的估计问题关系到一个由 I R M IR^M IRM到 I R N IR^N IRN的函数 f f f,其中 I R M IR^M IRM是参数空间, I R N IR^N IRN是测量空间。现在考虑一个点 X ‾ ∈ I R N \overline X\in IR^N X∈IRN,且存在一个参数向量 P ‾ ∈ I R M \overline P \in IR^M P∈IRM使得 f ( P ‾ ) = X ‾ f(\overline P) = \overline X f(P)=X。
令 X X X是根据各向同性高斯分布选取的测量向量,其均值为测量真值 X ‾ \overline X X而方差为 N σ 2 N\sigma^2 Nσ2(表示 N N N个分量都有方差 σ 2 \sigma^2 σ2)。当参数向量 P P P的值在 P ‾ \overline P P的领域变换时,函数 f ( P ) f(P) f(P)的值形成 I R N IR^N IRN中过点 X ‾ \overline X X的曲面 S M S_M SM。
给定测量向量 X X X,最大似然估计 X ^ \hat X X^是 S M S_M SM上的最接近 X X X的点。ML估计算法就是返回该曲面上离 X X X最近的点的算法。假定在 X ‾ \overline X X的领域曲面基本上是平面,即切平面可作为他的一个很好的近似,估计 X ^ \hat X X^是到 X X X切平面上的垂足。残差是点 X X X到估计值 X ^ \hat X X^的距离, X ^ \hat X X^到 X ‾ \overline X X的距离是最佳估计值到真值的距离。
- I R N IR^N IRN上总方差为 N σ 2 N\sigma^2 Nσ2的各向同性高斯分布向一个 s s s维子空间的投影是总方差为 s σ 2 s\sigma^2 sσ2的各向同性高斯分布
- 考虑一个估计问题,其中
N
N
N个测量由依赖于
d
d
d个本质参数集的函数模型化。假定每个测量变量有标准差
σ
2
\sigma^2
σ2的独立高斯噪声
-
M L ML ML估计算法的 R M S RMS RMS残差(测量值到估计值的距离)是
ε r e s = E [ ∥ X ^ − X ∥ 2 / N ] 1 / 2 = σ ( 1 − d / N ) 1 / 2 \varepsilon_{res} = E[\parallel \hat X -X \parallel^2/N]^{1/2} = \sigma(1-d/N)^{1/2} εres=E[∥X^−X∥2/N]1/2=σ(1−d/N)1/2 -
ML估计算法的 R M S RMS RMS估计误差(估计值到真值的距离)是
ε e s t = E [ ∥ X ^ − X ∥ 2 / N ] 1 / 2 = σ ( d / N ) 1 / 2 \varepsilon_{est} = E[\parallel \hat X - X \parallel ^2/N]^{1/2} = \sigma(d/N)^{1/2} εest=E[∥X^−X∥2/N]1/2=σ(d/N)1/2
-
确定一个算法的正确收敛性
根据MLE的模型,有
∥
X
−
X
‾
∥
2
=
∥
X
−
X
^
∥
2
+
∥
X
‾
−
X
^
∥
2
\parallel X - \overline X \parallel ^2 = \parallel X - \hat X \parallel ^2 + \parallel \overline X - \hat X \parallel ^2
∥X−X∥2=∥X−X^∥2+∥X−X^∥2
在评估采用合成数据的一个算法时,此等式给出一个简单的测试,查看该算法是否已收敛到最优值。如果
X
^
\hat X
X^停滞到局部最优解,等式右边大于左边。
估计变换的协方差
比起残差或估计误差,变换本身的准确度如何更值得关心,这是由协方差表示的
协方差的前向传播
- 仿射
令 v v v是 I R M IR^M IRM中的一个具有均值 v ‾ \overline v v和协方差矩阵 Σ \Sigma Σ的随机向量,假定 f : I R M → I R N f:IR^M \rightarrow IR^N f:IRM→IRN是一个仿射映射:定义为 f ( v ) = f ( v ‾ ) + A ( v − v ‾ ) f(v) = f(\overline v) + A(v- \overline v) f(v)=f(v)+A(v−v)。那么 f ( v ) f(v) f(v)是一个具有均值 f ( v ‾ ) f(\overline v) f(v)和协方差矩阵 A Σ A T A\Sigma A^T AΣAT的随机变量。 - 非线性
令 v v v是 I R M IR^M IRM中一个具有均值 v ‾ \overline v v和协方差矩阵 Σ \Sigma Σ的随机向量,令 f : I R M → I R N f:IR^M \rightarrow IR^N f:IRM→IRN在 v ‾ \overline v v的领域可微。那么在精确到一阶近似的程度下, f ( v ) f(v) f(v)是一个具有均值 f ( v ‾ ) f(\overline v) f(v)和协方差矩阵 J Σ J T J\Sigma J^T JΣJT的随机变量,其中 J J J是 f f f的雅克比矩阵在 v ‾ \overline v v的值
协方差的反向传播
- 仿射情形
令 f : I R M → I R N f:IR^M \rightarrow IR^N f:IRM→IRN是形为 f ( P ) = f ( P ‾ ) + J ( P − P ‾ ) f(P) = f(\overline P)+ J(P-\overline P) f(P)=f(P)+J(P−P)的仿射映射,其中 J J J的秩等于 M M M。令 X X X是 I R N IR^N IRN中一个具有均值 X ‾ = f ( P ‾ ) \overline X = f(\overline P) X=f(P)和协方差矩阵 Σ \Sigma Σ的随机变量。令 f − 1 ∘ η : I R N → I R M f^{-1} \circ \eta: IR^N \rightarrow IR^M f−1∘η:IRN→IRM是一个映射,它把测量向量 X X X映射到对应于 M L ML ML估计 X ^ \hat X X^的参数集合。那么 P ^ = f − 1 ∘ η ( X ) \hat P = f^{-1} \circ \eta(X) P^=f−1∘η(X)是一个具有均值 P ‾ \overline P P和协方差矩阵 ( J T Σ X − 1 J ) − 1 (J^T \Sigma_X^{-1} J)^{-1} (JTΣX−1J)−1的随机变量 - 非线性情形
令 f : I R M → I R N f:IR^M \rightarrow IR^N f:IRM→IRN是一个可微映射,而 J J J是它在点 P ‾ \overline P P处的雅克比矩阵。假定 J J J的秩为 M M M。则 f f f在 P ‾ \overline P P的领域是一一对应的。令 X X X是 I R N IR^N IRN中一个具有均值 X ‾ = f ( P ‾ ) \overline X = f(\overline P) X=f(P)和协方差矩阵 Σ X \Sigma_X ΣX的随机变量。令映射 f − 1 ∘ η : I R N → I R M f^{-1} \circ \eta: IR^N \rightarrow IR^M f−1∘η:IRN→IRM是一个映射,把测量向量 X X X映射到对应于 M L ML ML估计 X ^ \hat X X^的参数集合。那么在一阶精度下, P ^ = f − 1 ∘ η ( X ) \hat P = f^{-1} \circ \eta(X) P^=f−1∘η(X)是一个具有均值 P ‾ \overline P P和协方差矩阵 ( J T Σ X J ) − 1 (J^T\Sigma_XJ)^{-1} (JTΣXJ)−1的随机变量
超参数化
把协方差反向传播推广到冗余数据集超参数化的情形
- 令
f
:
I
R
M
→
I
R
N
f:IR^M \rightarrow IR^N
f:IRM→IRN是一个可微映射,它将一组参数
P
‾
\overline P
P映射到测量向量
X
X
X。令
S
P
S_P
SP是嵌入
I
R
M
IR^M
IRM中的过点
P
‾
\overline P
P的
d
d
d维光滑流形并使得映射
f
f
f在流形
S
P
S_P
SP上
P
‾
\overline P
P的一个领域内是一一对应的,
f
f
f把
P
‾
\overline P
P局域地映射到
I
R
N
IR^N
IRN上的流形
f
(
S
P
)
f(S_P)
f(SP)。函数
f
f
f有一个局部逆函数,记为
f
−
1
f^{-1}
f−1,它限制在曲面
f
(
S
P
)
f(S_P)
f(SP)上的一个领域内。定义
I
R
N
IR^N
IRN上的一个具有均值
X
‾
\overline X
X和协方差
Σ
X
\Sigma_X
ΣX的高斯分布,并令
η
:
I
R
N
→
f
(
S
P
)
\eta:IR^N \rightarrow f(S_P)
η:IRN→f(SP)把
I
R
N
IR^N
IRN上的点映射到
f
(
S
P
)
f(S_P)
f(SP)上并在
M
a
h
a
l
a
n
o
b
i
s
Mahalanobis
Mahalanobis范数
∥
⋅
∥
Σ
X
\parallel \cdot \parallel _{\Sigma_X}
∥⋅∥ΣX意义下最近的点。
I
R
N
IR^N
IRN上具有协方差矩阵
Σ
X
\Sigma_X
ΣX的概率分布通过
f
−
1
∘
η
f^{-1} \circ \eta
f−1∘η诱导
I
R
M
IR^M
IRM上的概率分布,它在一阶精度下的协方差矩阵是
Σ P = ( J T Σ X − 1 J ) + A = A ( A T J T Σ X − 1 J A ) − 1 A T \Sigma_P = (J^T\Sigma_X ^{-1} J)^{+A} = A(A^TJ^T\Sigma^{-1}_X JA)^{-1} A^T ΣP=(JTΣX−1J)+A=A(ATJTΣX−1JA)−1AT
其中, A A A的列向量生成 S P S_P SP的过点 P ‾ \overline P P的且空间
- 令可微映射
f
:
I
R
M
→
I
R
N
f:IR^M \rightarrow IR^N
f:IRM→IRN把
P
‾
\overline P
P映射到
X
‾
\overline X
X,并令
J
J
J为
f
f
f的雅克比矩阵。设
I
R
N
IR^N
IRN上一个具有协方差矩阵
Σ
X
\Sigma_X
ΣX的高斯分布定义在
X
‾
\overline X
X,令
f
−
1
∘
η
:
I
R
M
→
I
R
N
f^{-1} \circ \eta :IR^M \rightarrow IR^N
f−1∘η:IRM→IRN是把一个测量
X
X
X映射到约束在局部正交于
J
J
J的零空间的曲面
S
P
S_P
SP上的MLE参数向量
P
P
P的映射,那么
f
−
1
∘
η
f^{-1} \circ \eta
f−1∘η诱导在
I
R
M
IR^M
IRM上的一个分布,他的协方差矩阵在一阶精度下等于
Σ P = ( J T Σ X − 1 J ) + \Sigma_P = (J^T \Sigma_X^{-1} J )^+ ΣP=(JTΣX−1J)+