最小二乘法和
L
2
L_2
L2范数在反问题求解中应用广泛,同时这种情形可以通过假设数据与先验模型参数遵从高斯统计来合理解释。但这个假设并不总是恰当的,有些数据集服从其他分布。
双边指数概率密度函数就是一个简单的变通选择。假设具有相同的均值
⟨
d
⟩
\left \langle {d}\right \rangle
⟨d⟩和方差
σ
2
\sigma^2
σ2,对高斯和指数分布两者进行比较:
两者的概率密度分布如下图所示,红色曲线对应指数分布,蓝色对应高斯分布,可以看到指数分布有更长的拖尾。
那么也就是说,对于远离
⟨
d
⟩
\langle{d}\rangle
⟨d⟩的数据,就其存在的概率来说,指数概率密度函数要远高于高斯概率密度函数,如下表所示:
所以,基于指数概率密度函数的方法将比高斯概率密度函数的方法更有能力处理具有少量"坏"数据(离群值/远离
⟨
d
⟩
\langle{d}\rangle
⟨d⟩的数据),这种能够容忍少量离群值的方法是稳健的(robust)(Claerbout and Muir, 1973)。
1. 指数概率密度函数的最大似然估计
指数概率密度函数与
L
1
L_1
L1范数的关系,同高斯概率密度函数与
L
2
L_2
L2范数的关系相同。
考虑
N
N
N个独立数据的联合分布,各个数据具有相同的
⟨
d
⟩
\langle{d}\rangle
⟨d⟩和方差
σ
2
\sigma^2
σ2。其联合概率密度函数为
N
N
N个单变量函数的乘积:
p
(
d
)
=
(
2
)
−
N
/
2
σ
−
N
exp
[
−
(
2
)
1
/
2
σ
∑
i
=
1
N
∣
d
i
−
⟨
d
⟩
∣
]
p(d)=(2)^{-N / 2} \sigma^{-N} \exp \left[-\frac{(2)^{1 / 2}}{\sigma} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right|\right]
p(d)=(2)−N/2σ−Nexp[−σ(2)1/2i=1∑N∣di−⟨d⟩∣]
1)为了最大化
p
(
d
)
p(d)
p(d)函数,必须最大化指数项参量,即最小化预测误差
minimize
E
=
∑
i
=
1
N
∣
d
i
−
m
1
∣
\operatorname{minimize} \quad E=\sum_{i=1}^{N}\left|d_{i}-m_{1}\right|
minimizeE=i=1∑N∣di−m1∣
这恰好是 G m = d 形 式 线 性 反 问 题 中 , \mathbf{Gm=d}形式线性反问题中, Gm=d形式线性反问题中,L_1 范 数 的 预 测 误 差 范数的预测误差 范数的预测误差
2)应用最大似然原理,则有
maximize
L
=
log
p
=
−
N
2
log
(
2
)
−
N
log
(
σ
)
−
(
2
)
1
/
2
σ
∑
i
=
1
N
∣
d
i
−
⟨
d
⟩
∣
\text { maximize } \quad L=\log{p}=-\frac{N}{2} \log (2)-N \log (\sigma)-\frac{(2)^{1 / 2}}{\sigma} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right|
maximize L=logp=−2Nlog(2)−Nlog(σ)−σ(2)1/2i=1∑N∣di−⟨d⟩∣
另上述两项导数等于
0
0
0,得到:
∂
L
∂
m
1
=
0
=
(
2
)
1
/
2
σ
∑
i
=
1
N
sign
(
d
i
−
⟨
d
⟩
)
∂
L
∂
σ
=
0
=
N
σ
−
(
2
)
1
/
2
σ
2
∑
i
=
1
N
∣
d
i
−
⟨
d
⟩
∣
\begin{aligned} \frac{\partial L}{\partial m_{1}} &=0=\frac{(2)^{1 / 2}}{\sigma} \sum_{i=1}^{N} \operatorname{sign}\left(d_{i}-{\langle{d}\rangle}\right) \\ \frac{\partial L}{\partial \sigma} &=0=\frac{N}{\sigma}-\frac{(2)^{1 / 2}}{\sigma^{2}} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right| \end{aligned}
∂m1∂L∂σ∂L=0=σ(2)1/2i=1∑Nsign(di−⟨d⟩)=0=σN−σ2(2)1/2i=1∑N∣di−⟨d⟩∣
sign(x)叫做符号函数,其功能是取某个数的符号(正或负):
当x>0,sign(x)=1;
当x=0,sign(x)=0;
当x<0, sign(x)=-1;
第一个方程生成了 ⟨ d ⟩ = ⟨ d ⟩ e s t \langle{d}\rangle={\langle{d}\rangle}^{est} ⟨d⟩=⟨d⟩est的隐式表达式,即 ∑ i = 1 N sign ( d i − ⟨ d ⟩ ) = 0 \sum_{i=1}^{N} \operatorname{sign}\left(d_{i}-{\langle{d}\rangle}\right)=0 ∑i=1Nsign(di−⟨d⟩)=0,无法直接求解。这意味着 ⟨ d ⟩ e s t {\langle{d}\rangle}^{est} ⟨d⟩est为采样点的中值。那么,即便为该数据集添加一个非常糟糕的采样点,中值也仅是从一个中心基准移动到了临近的中心基准,所以说中值是一个数据预测中稳健的属性。
高斯分布的均值是采样点的算术平均,指数分布的均值为采样点的中值。
第二个方程,可获得方差的一个估计:
σ
e
s
t
=
(
2
)
1
/
2
N
∑
i
=
1
N
∣
d
i
−
⟨
d
⟩
∣
\sigma^{\mathrm{est}}=\frac{(2)^{1 / 2}}{N} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right|
σest=N(2)1/2i=1∑N∣di−⟨d⟩∣
如果存在奇数个采样点,那么
⟨
d
⟩
=
⟨
d
⟩
e
s
t
\langle{d}\rangle={\langle{d}\rangle}^{est}
⟨d⟩=⟨d⟩est等于中间的采样点值,若存在偶数个采样点,那么
⟨
d
⟩
=
⟨
d
⟩
e
s
t
\langle{d}\rangle={\langle{d}\rangle}^{est}
⟨d⟩=⟨d⟩est应该是数据序列中中间两个数据之间的一个值。在奇数的情况中,预测误差
E
E
E仅在中间的采样点达到最小;但在偶数情况中,预测误差
E
E
E在中间的两个采样点之间是水平的(下图A)。
图是对N次观测的均值
m
e
s
t
m^{est}
mest(
⟨
d
⟩
=
⟨
d
⟩
e
s
t
\langle{d}\rangle={\langle{d}\rangle}^{est}
⟨d⟩=⟨d⟩est)进行估计的反问题。图A具有偶数N的
L
1
L_1
L1误差
E
(
m
)
E(m)
E(m)(红线),误差拥有一个平缓的最小值,限定于两次观测(圆圈)之间,且解是非唯一的。图B具有奇数N的
L
1
L_1
L1误差,误差在一个观测点处是最小的,且解是唯一的。图C是
L
2
L_2
L2误差,误差在一个单独点处是最小的,这个点可能不会对应于观测点,但解是唯一的。
因此,我们注意到,这个最小化 G m = d \mathbf{Gm=d} Gm=d预测误差的 L 1 L_1 L1问题可以有非唯一解,而这与 L 2 L_2 L2问题中遇到的非唯一性的原因不同。 L 1 L_1 L1问题依然具有非唯一性的原因是零解仍然存在,零解在任何范数下都无法改变预测误差。同时,这种新类型的非唯一性允许解取有限边界间的任意值。
2 广义线性问题
考虑反问题
G
m
=
d
\mathbf{Gm=d}
Gm=d,其中数据和模型先验信息分布与已知的均值
d
o
b
s
\mathbf{d^{obs}}
dobs,
⟨
m
⟩
\mathbf{\langle{m}\rangle}
⟨m⟩,和已知的方差
σ
d
2
,
σ
m
2
\sigma_d^2,\sigma_m^2
σd2,σm2无关。那么联合分布是:
p
(
d
,
m
)
=
2
−
(
M
+
N
)
/
2
∏
i
=
1
N
σ
d
i
−
1
exp
[
−
2
1
/
2
∣
e
i
∣
σ
d
i
]
∏
j
=
1
M
σ
m
j
−
1
exp
[
−
2
1
/
2
∣
l
j
∣
σ
m
j
]
p(\mathbf{d}, \mathbf{m})=2^{-(M+N) / 2} \prod_{i=1}^{N} \sigma_{d_{i}}^{-1} \exp \left[-2^{1 / 2} \frac{\left|e_{i}\right|}{\sigma_{d_{i}}}\right] \prod_{j=1}^{M} \sigma_{m j}^{-1} \exp \left[-2^{1 / 2} \frac{\left|l_{j}\right|}{\sigma_{m j}}\right]
p(d,m)=2−(M+N)/2i=1∏Nσdi−1exp[−21/2σdi∣ei∣]j=1∏Mσmj−1exp[−21/2σmj∣lj∣]
其中,
预测误差为:
e
=
d
−
G
m
\mathbf{e=d-Gm}
e=d−Gm,
解的长度为:
I
=
m
−
⟨
m
⟩
\mathbf{I=m-{\langle{m}\rangle}}
I=m−⟨m⟩
1)最大似然发生在指数取极小值是,也就是
L
1
L_1
L1的预测误差与解的长度之和被最小化时:
minimize
E
+
L
=
∑
i
=
1
N
∣
e
i
∣
σ
d
i
+
∑
j
=
1
M
∣
l
j
∣
σ
m
j
\text { minimize } \quad E+L=\sum_{i=1}^{N} \frac{\left|e_{i}\right|}{\sigma_{d_{i}}}+\sum_{j=1}^{M} \frac{\left|l_{j}\right|}{\sigma_{m j}}
minimize E+L=i=1∑Nσdi∣ei∣+j=1∑Mσmj∣lj∣
值得注意的是,指数分布随机变量的联合(线性组合)并非是指数性的(不像高斯分布那样了)。
3 L ∞ L_{\infty} L∞范数
与
L
1
L_1
L1范数对“坏”数据加权更小(相对于
L
2
L_2
L2范数而言)相反,
L
∞
L_{\infty}
L∞对“坏”数据的加权更大:
minimize
L
+
E
=
∥
e
∥
∞
+
∥
I
∥
∞
=
max
i
∣
e
i
∣
σ
d
i
+
max
i
∣
l
i
∣
σ
m
i
\text { minimize } \quad L+E=\|\mathbf{e}\|_{\infty}+\|\mathbf{I}\|_{\infty}=\max _{i} \frac{\left|e_{i}\right|}{\sigma_{d_{i}}}+\max _{i} \frac{\left|l_{i}\right|}{\sigma_{m_{i}}}
minimize L+E=∥e∥∞+∥I∥∞=imaxσdi∣ei∣+imaxσmi∣li∣
一般而言,人们不想强调离群值,因此 L ∞ L_{\infty} L∞形式的主要价值是它能偶提供一个模型参数的最差估计,以此与其他范数所求出的解估计进行比较。如果这些估计是接近的,则可以认定数据是高度一致的。