非高斯统计(L2范数)的地球物理反问题

最小二乘法和 L 2 L_2 L2范数在反问题求解中应用广泛,同时这种情形可以通过假设数据与先验模型参数遵从高斯统计来合理解释。但这个假设并不总是恰当的,有些数据集服从其他分布。
双边指数概率密度函数就是一个简单的变通选择。假设具有相同的均值 ⟨ d ⟩ \left \langle {d}\right \rangle d和方差 σ 2 \sigma^2 σ2,对高斯和指数分布两者进行比较:
在这里插入图片描述
两者的概率密度分布如下图所示,红色曲线对应指数分布,蓝色对应高斯分布,可以看到指数分布有更长的拖尾。
在这里插入图片描述
那么也就是说,对于远离 ⟨ d ⟩ \langle{d}\rangle d的数据,就其存在的概率来说,指数概率密度函数要远高于高斯概率密度函数,如下表所示:
在这里插入图片描述
所以,基于指数概率密度函数的方法将比高斯概率密度函数的方法更有能力处理具有少量"坏"数据(离群值/远离 ⟨ d ⟩ \langle{d}\rangle d的数据),这种能够容忍少量离群值的方法是稳健的(robust)(Claerbout and Muir, 1973)。

1. 指数概率密度函数的最大似然估计

指数概率密度函数与 L 1 L_1 L1范数的关系,同高斯概率密度函数与 L 2 L_2 L2范数的关系相同。
考虑 N N N个独立数据的联合分布,各个数据具有相同的 ⟨ d ⟩ \langle{d}\rangle d和方差 σ 2 \sigma^2 σ2。其联合概率密度函数为 N N N个单变量函数的乘积:
p ( d ) = ( 2 ) − N / 2 σ − N exp ⁡ [ − ( 2 ) 1 / 2 σ ∑ i = 1 N ∣ d i − ⟨ d ⟩ ∣ ] p(d)=(2)^{-N / 2} \sigma^{-N} \exp \left[-\frac{(2)^{1 / 2}}{\sigma} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right|\right] p(d)=(2)N/2σNexp[σ(2)1/2i=1Ndid]
1)为了最大化 p ( d ) p(d) p(d)函数,必须最大化指数项参量,即最小化预测误差
minimize ⁡ E = ∑ i = 1 N ∣ d i − m 1 ∣ \operatorname{minimize} \quad E=\sum_{i=1}^{N}\left|d_{i}-m_{1}\right| minimizeE=i=1Ndim1

这恰好是 G m = d 形 式 线 性 反 问 题 中 , \mathbf{Gm=d}形式线性反问题中, Gm=d线L_1 范 数 的 预 测 误 差 范数的预测误差

2)应用最大似然原理,则有
 maximize  L = log ⁡ p = − N 2 log ⁡ ( 2 ) − N log ⁡ ( σ ) − ( 2 ) 1 / 2 σ ∑ i = 1 N ∣ d i − ⟨ d ⟩ ∣ \text { maximize } \quad L=\log{p}=-\frac{N}{2} \log (2)-N \log (\sigma)-\frac{(2)^{1 / 2}}{\sigma} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right|  maximize L=logp=2Nlog(2)Nlog(σ)σ(2)1/2i=1Ndid

另上述两项导数等于 0 0 0,得到:
∂ L ∂ m 1 = 0 = ( 2 ) 1 / 2 σ ∑ i = 1 N sign ⁡ ( d i − ⟨ d ⟩ ) ∂ L ∂ σ = 0 = N σ − ( 2 ) 1 / 2 σ 2 ∑ i = 1 N ∣ d i − ⟨ d ⟩ ∣ \begin{aligned} \frac{\partial L}{\partial m_{1}} &=0=\frac{(2)^{1 / 2}}{\sigma} \sum_{i=1}^{N} \operatorname{sign}\left(d_{i}-{\langle{d}\rangle}\right) \\ \frac{\partial L}{\partial \sigma} &=0=\frac{N}{\sigma}-\frac{(2)^{1 / 2}}{\sigma^{2}} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right| \end{aligned} m1LσL=0=σ(2)1/2i=1Nsign(did)=0=σNσ2(2)1/2i=1Ndid

sign(x)叫做符号函数,其功能是取某个数的符号(正或负):
当x>0,sign(x)=1;
当x=0,sign(x)=0;
当x<0, sign(x)=-1;

第一个方程生成了 ⟨ d ⟩ = ⟨ d ⟩ e s t \langle{d}\rangle={\langle{d}\rangle}^{est} d=dest的隐式表达式,即 ∑ i = 1 N sign ⁡ ( d i − ⟨ d ⟩ ) = 0 \sum_{i=1}^{N} \operatorname{sign}\left(d_{i}-{\langle{d}\rangle}\right)=0 i=1Nsign(did)=0,无法直接求解。这意味着 ⟨ d ⟩ e s t {\langle{d}\rangle}^{est} dest为采样点的中值。那么,即便为该数据集添加一个非常糟糕的采样点,中值也仅是从一个中心基准移动到了临近的中心基准,所以说中值是一个数据预测中稳健的属性

高斯分布的均值是采样点的算术平均,指数分布的均值为采样点的中值。

第二个方程,可获得方差的一个估计:
σ e s t = ( 2 ) 1 / 2 N ∑ i = 1 N ∣ d i − ⟨ d ⟩ ∣ \sigma^{\mathrm{est}}=\frac{(2)^{1 / 2}}{N} \sum_{i=1}^{N}\left|d_{i}-{\langle{d}\rangle}\right| σest=N(2)1/2i=1Ndid
如果存在奇数个采样点,那么 ⟨ d ⟩ = ⟨ d ⟩ e s t \langle{d}\rangle={\langle{d}\rangle}^{est} d=dest等于中间的采样点值,若存在偶数个采样点,那么
⟨ d ⟩ = ⟨ d ⟩ e s t \langle{d}\rangle={\langle{d}\rangle}^{est} d=dest应该是数据序列中中间两个数据之间的一个值。在奇数的情况中,预测误差 E E E仅在中间的采样点达到最小;但在偶数情况中,预测误差 E E E在中间的两个采样点之间是水平的(下图A)。
在这里插入图片描述
图是对N次观测的均值 m e s t m^{est} mest ⟨ d ⟩ = ⟨ d ⟩ e s t \langle{d}\rangle={\langle{d}\rangle}^{est} d=dest)进行估计的反问题。图A具有偶数N的 L 1 L_1 L1误差 E ( m ) E(m) E(m)(红线),误差拥有一个平缓的最小值,限定于两次观测(圆圈)之间,且解是非唯一的。图B具有奇数N的 L 1 L_1 L1误差,误差在一个观测点处是最小的,且解是唯一的。图C是 L 2 L_2 L2误差,误差在一个单独点处是最小的,这个点可能不会对应于观测点,但解是唯一的。

因此,我们注意到,这个最小化 G m = d \mathbf{Gm=d} Gm=d预测误差的 L 1 L_1 L1问题可以有非唯一解,而这与 L 2 L_2 L2问题中遇到的非唯一性的原因不同 L 1 L_1 L1问题依然具有非唯一性的原因是零解仍然存在,零解在任何范数下都无法改变预测误差。同时,这种新类型的非唯一性允许解取有限边界间的任意值。

2 广义线性问题

考虑反问题 G m = d \mathbf{Gm=d} Gm=d,其中数据和模型先验信息分布与已知的均值 d o b s \mathbf{d^{obs}} dobs ⟨ m ⟩ \mathbf{\langle{m}\rangle} m,和已知的方差 σ d 2 , σ m 2 \sigma_d^2,\sigma_m^2 σd2,σm2无关。那么联合分布是:
p ( d , m ) = 2 − ( M + N ) / 2 ∏ i = 1 N σ d i − 1 exp ⁡ [ − 2 1 / 2 ∣ e i ∣ σ d i ] ∏ j = 1 M σ m j − 1 exp ⁡ [ − 2 1 / 2 ∣ l j ∣ σ m j ] p(\mathbf{d}, \mathbf{m})=2^{-(M+N) / 2} \prod_{i=1}^{N} \sigma_{d_{i}}^{-1} \exp \left[-2^{1 / 2} \frac{\left|e_{i}\right|}{\sigma_{d_{i}}}\right] \prod_{j=1}^{M} \sigma_{m j}^{-1} \exp \left[-2^{1 / 2} \frac{\left|l_{j}\right|}{\sigma_{m j}}\right] p(d,m)=2(M+N)/2i=1Nσdi1exp[21/2σdiei]j=1Mσmj1exp[21/2σmjlj]
其中,
预测误差为: e = d − G m \mathbf{e=d-Gm} e=dGm
解的长度为: I = m − ⟨ m ⟩ \mathbf{I=m-{\langle{m}\rangle}} I=mm

1)最大似然发生在指数取极小值是,也就是 L 1 L_1 L1的预测误差与解的长度之和被最小化时:
 minimize  E + L = ∑ i = 1 N ∣ e i ∣ σ d i + ∑ j = 1 M ∣ l j ∣ σ m j \text { minimize } \quad E+L=\sum_{i=1}^{N} \frac{\left|e_{i}\right|}{\sigma_{d_{i}}}+\sum_{j=1}^{M} \frac{\left|l_{j}\right|}{\sigma_{m j}}  minimize E+L=i=1Nσdiei+j=1Mσmjlj

值得注意的是,指数分布随机变量的联合(线性组合)并非是指数性的(不像高斯分布那样了)。

3 L ∞ L_{\infty} L范数

L 1 L_1 L1范数对“坏”数据加权更小(相对于 L 2 L_2 L2范数而言)相反, L ∞ L_{\infty} L对“坏”数据的加权更大:
 minimize  L + E = ∥ e ∥ ∞ + ∥ I ∥ ∞ = max ⁡ i ∣ e i ∣ σ d i + max ⁡ i ∣ l i ∣ σ m i \text { minimize } \quad L+E=\|\mathbf{e}\|_{\infty}+\|\mathbf{I}\|_{\infty}=\max _{i} \frac{\left|e_{i}\right|}{\sigma_{d_{i}}}+\max _{i} \frac{\left|l_{i}\right|}{\sigma_{m_{i}}}  minimize L+E=e+I=imaxσdiei+imaxσmili

一般而言,人们不想强调离群值,因此 L ∞ L_{\infty} L形式的主要价值是它能偶提供一个模型参数的最差估计,以此与其他范数所求出的解估计进行比较。如果这些估计是接近的,则可以认定数据是高度一致的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值