【机器学习】Bregman迭代算法以及证明

最新推荐文章于 2022-01-09 17:22:36 发布

artzers

最新推荐文章于 2022-01-09 17:22:36 发布

阅读量7.2k

点赞数 4

分类专栏：图像处理模式识别与机器学习综合算法文章标签：机器学习算法迭代图像处理最优化方法

本文链接：https://blog.csdn.net/lpsl1882/article/details/71247682

版权

模式识别与机器学习同时被 3 个专栏收录

46 篇文章 6 订阅

订阅专栏

图像处理

29 篇文章 2 订阅

订阅专栏

综合算法

10 篇文章 2 订阅

订阅专栏

Bregman系列算法是近几年在图像处理和压缩感知领域异军突起的算法，能够更好地从现有数据中还原真实目标结果。我们可以构造优化模型 $argmin{H(u)+J(u)}$ 来还原真实目标数据，一般理解为 $H(u)$ 是我们的目标最小化模型，常用的有 $H(u)=1/2(Au-Y)^2$ ，其中u是目标，Y是观测结果，A是导致观测结果与真实结果不一致的原因；J(u)一般是一个约束项，自从压缩感知火了之后，一般J(u)是一个L1模型，即一个绝对值函数，等价于要找一组u，使得u的表示最简单，这里用Bregman距离来对L1进一步完善。
Bregman算法的核心之一是Bregman距离，给定泛函J，Bregman距离定义如下：

D p (u, v) = J (u) - J (v) - < p, u - v > \geq 0

$D^p(u,v)=J(u)-J(v)-<p,u-v>\ \ge 0$
符合上述条件的p，称为次梯度subgradient：

{p | D p (u, v) = J (u) - J (v) - < p, u - v > \geq 0}

$\{p | D^p(u,v)=J(u)-J(v)-<p,u-v>\ \ge 0\}$ 其中<>表示內积。其中

D(u,u)=0 $D(u,u)=0$ 。
我们可以看出Bregman距离与泰勒展开式有密切的关系，反映了J(u)在v处的拟合误差。Bregman距离和KL距离是一类东西，不符合传统的距离定义，比如

D(u,v)≠D(v,u) $D(u,v) \ne D(v,u)$ ，不过

D(u,v) $D(u,v)$ 显然的有

v→u,Dp(u,v)↓ $v\rightarrow u,D^p(u,v)\downarrow$ ，因此Bregman距离可以反映一种远近关系。

先给出迭代算法,H(u)是优化模型：

Initialize: $k=0, u^0 = 0, p^0 = 0$ (1)
While $u^k$ not converge:
$u^{k+1} = argmin_u D_J^p(u, u^k ) + H(u)$ (2)
$p^{k+1} = p^k − \nabla H(u^{k+1} ) ∈ ∂J(u^{k+1} )$ (3)
$k =k+1$
end while

下面来证明这个算法是可行的：

下界

H(u)优化模型的定义是一个有下界、可微分的凸模型；Bregman距离有定义 $D^p(u,v)\ge 0$ 。综上有 $sup[J(u)+H(u)]=C,C>-\inf$ ，因此Bregman优化模型可以达到一个明确的最小化值，即有下确界。

为什么迭代过程中 $p^{k+1}$ 是次梯度

然后是证明沿着 $p^{k+1}$ 也是最小化模型的次梯度。函数最小化时，梯度应当为0，有:

\nabla D p J (u, u k) + \nabla H (u) = \nabla (J (u) - J (u k) - < p, u - u k > + H (u)) = \nabla J (u) - p + \nabla H (u) \supset 0 \to p' = p - \nabla H (u) \subset \nabla J (u)

$\nabla D_J^p(u, u^k ) + \nabla H(u)\\=\nabla (J(u) − J(u^{k} ) − <p , u − u^k> + H(u))=\nabla J(u) - p+\nabla H(u) \supset 0 \\ \rightarrow p'=p-\nabla H(u) \subset \nabla J(u)$ (4) 即

p′ $p'$ 是新的次梯度，可令

pk+1=p′ $p^{k+1}=p'$ 。

收敛性

由于Bregman距离是非负的，且未收敛时 $u^{k+1} \ne u^k$ ,所以 $H(u^{k+1})< H(u^{k+1})+D_J^p(u^{k+1}, u^k )=F(u^{k+1})$ ，而根据（2） $F(u^{k+1})$ 最小。因此

F (u k + 1) < F (u k) = H (u k) + D p J (u k, u k) = H (u k) \to H (u k + 1) < H (u k)

$F(u^{k+1}) < F(u^k)=H(u^k)+D_J^p(u^k, u^k )=H(u^k) \\ \rightarrow H(u^{k+1}) < H(u^k)$ 即H在迭代算法中是单调下降的。
然后是证明J在迭代算法中单调下降。原始证明有个技巧：

Dpk(u,uk)+Dpk−1(uk,uk−1)−Dpk−1(uk,uk−1)=<pk−pk−1,uk−u> $D^{p^k}(u, u^k )+D^{p^{k−1}}(u^k, u^{k−1})- D^{p^{k-1}}(u^k , u^{k−1} ) =<p^k-p^{k-1},u^k-u>$ ,由（4）有

< p k - p k - 1, u k - u > = \nabla H (u k) (u k - u)

D p k (u, u k) + D p k - 1 (u k, u k - 1) - D p k - 1 (u k, u k - 1) = \nabla H (u k) (u k - u) \leq H (u) - H (u k) (5)

$D^{p^k}(u, u^k )+D^{p^{k−1}}(u^k, u^{k−1})- D^{p^{k-1}}(u^k , u^{k−1} )\\ =\nabla H(u^k)(u^k-u)\le H(u)-H(u^k) \tag{5}$
继续使用Bregman距离非负性质得到

D p k (u, u k) - D p k - 1 (u k, u k - 1) < D p k (u, u k) + D p k - 1 (u k, u k - 1) - D p k - 1 (u k, u k - 1) \leq H (u) - H (u k)

$D^{p^k}(u, u^k )- D^{p^{k-1}}(u^k , u^{k−1} ) < D^{p^k}(u, u^k )+D^{p^{k−1}}(u^k, u^{k−1})- D^{p^{k-1}}(u^k , u^{k−1} ) \\ \le H(u)-H(u^k)$ 当还没有收敛时，由(5)知道

H(uk+1)<H(uk) $H(u^{k+1})<H(u^{k})$ ，所以优化时应该有

H(uk)>H(u),H(u)−H(uk)<0 $H(u^k) >H(u) ,H(u)-H(u^k)<0$ 那么

D p k (u, u k) - D p k - 1 (u k, u k - 1) < 0 \to D p k (u, u k) < D p k - 1 (u k, u k - 1)

$D^{p^k}(u, u^k )- D^{p^{k-1}}(u^k , u^{k−1} ) < 0 \rightarrow D^{p^k}(u, u^k )< D^{p^{k-1}}(u^k , u^{k−1} )$
综上，沿着

p $p$ 下降可以同时最小化H和D，即最小化目标模型可解。

为什么比L1模型好

设 $J(u)=|u|$ ，即使用L1正则化。当迭代进行第一步时， $p^0,u^0$ 为零向量，此时优化模型就是最初的L1优化模型： $argmin[{J(u)+H(u)}]=argmin{[|u|+H(u)]}$ 。之后的迭代过程会在此基础上继续逼近真实答案，所以Bregman在考虑L1稀疏特征的基础上进行了进一步优化。