【机器学习】Bregman分离算法推导

最新推荐文章于 2023-04-10 19:45:04 发布

artzers

最新推荐文章于 2023-04-10 19:45:04 发布

阅读量2.9k

点赞数 2

分类专栏：图像处理模式识别与机器学习综合算法文章标签：机器学习算法

本文链接：https://blog.csdn.net/lpsl1882/article/details/72571833

版权

模式识别与机器学习同时被 3 个专栏收录

46 篇文章 6 订阅

订阅专栏

图像处理

29 篇文章 2 订阅

订阅专栏

综合算法

10 篇文章 2 订阅

订阅专栏

Bregman分离算法比Bregman迭代算法更简单、更有效。接上篇博客，我们可以构造优化模型 $argmin{H(u)+J(u)}$ 来还原真实目标数据，一般理解为 $H(u)$ 是我们的目标最小化模型，常用的有 $H(u)=1/2(Au-Y)^2$ ，其中u是目标，Y是观测结果，A是导致观测结果与真实结果不一致的原因；J(u)一般是一个约束项，自从压缩感知火了之后，一般J(u)是一个L1模型，即一个绝对值函数，等价于要找一组u，使得u的表示最简单。整体表示为

a r g m i n | Φ (u) | + H (u)

$argmin{|\Phi(u)|+H(u)}$

Φ(u) $\Phi(u)$ 是表达式，其L1模型略难求解。一种技巧是建立约束优化模型：

a r g m i n | d | + H (u), s . t . d = Φ (u) \to a r g m i n | d | + H (u) - λ / 2 (d - Φ (u)) 2

$argmin{|d|+H(u)},s.t.d=\Phi(u) \\ \rightarrow argmin{|d|+H(u) - \lambda /2(d-\Phi(u))^2}$
这里将约束变为L2项。是一个为了松弛变量做出的折中。原先复杂的

Φ(u) $\Phi(u)$ 被放入二次函数——一个简单的凸函数中，很好计算梯度了；而复杂的L1约束项约束了d。令

J(u,d)=|d|+H(u) $J(u,d)=|d|+H(u)$ ，约束问题变为

a r g m i n u, d J (u, d) + H (u)

$argmin_{u,d}{J(u,d)+H(u)}$ 我们引入二元Bregman散度，这样就可以使用Bregman迭代算法了。

(u k + 1, d k + 1) = a r g m i n u, d D p (u, u k, d, d k) + λ / 2 (d - Φ (u)) 2 (1)

$(u^{k+1},d^{k+1})=argmin_{u,d}{D^p(u,u^{k},d,d^{k})+\lambda /2(d-\Phi(u))^2}\tag{1}$

p k + 1 u = p k u - \partial J ( u , d ) \partial u = p k u - λ \nabla Φ (u k + 1) T (Φ (u k + 1) - d k + 1) = - λ \sum i \nabla Φ (Φ (u i) - d i) (2)

$p^{k+1}_u=p^{k}_u-\frac{\partial J(u,d)}{\partial u}=p^{k}_u-\lambda \nabla \Phi (u^{k+1})^T (\Phi(u^{k+1})-d^{k+1})=-\lambda \sum_i{\nabla \Phi(\Phi(u^{i})-d^{i})} \tag{2}$

p k + 1 d = p k d - \partial J ( u , d ) \partial d = p k u - λ (d k + 1 - Φ (u k + 1)) = - λ \sum i (d i - Φ (u i) (3)

$p^{k+1}_d=p^{k}_d-\frac{\partial J(u,d)}{\partial d}=p^{k}_u-\lambda (d^{k+1}-\Phi(u^{k+1}))=-\lambda \sum_i{(d^{i}-\Phi(u^{i})} \tag{3}$
令

bk=∑i(Φ(ui−di) $b^k=\sum_i{(\Phi(u^{i}-d^{i})}$ ，如果把

Φ $\Phi$ 视作线性映射，那么有

pku=−λ∇ΦTbk,pkd=λbk $p^{k}_u=-\lambda \nabla \Phi^T b^k,p_d^k=\lambda b^k$ 。
现在来看u的优化公式,d固定当做常量，

uk $u^k$ 也是常量。由(1)得到

u k + 1 = a r g m i n J (u, d k) - < p k u, u - u k > + λ / 2 (d k - Φ (u)) 2 = a r g m i n J (u, d k) - < - λ \nabla Φ T b k, u - u k > + λ / 2 (d k - Φ (u)) 2 = a r g m i n H (u) + λ \nabla Φ T (u - u k) b k + λ / 2 (d k - Φ (u)) 2 + C

$u^{k+1}=argmin{J(u,d^k)-<p_u^k,u-u^k>+\lambda/2(d^k-\Phi(u))^2} \\ = argmin{J(u,d^k)-<-\lambda \nabla \Phi^T b^k,u-u^k>+\lambda/2(d^k-\Phi(u))^2} \\ = argmin{H(u)+\lambda \nabla \Phi^T (u-u^k)b^k+\lambda/2(d^k-\Phi(u))^2}+C$
很多文献在这一步后面直接给出了结果，

∇Φ $\nabla \Phi$ 莫名其妙就消了，也没有推导，非常晦涩。这里我推测右边是用了泰勒展开式，其中

Ruk $R_{u_k}$ 是余项：

\nabla Φ T (u - u k) b k + 1 / 2 (d k - Φ (u)) 2 = b k [Φ (u k) + \nabla Φ T (u - u k) + R u k] + 1 / 2 (d k - Φ (u)) 2 + C 1 = b k Φ (u) + b k d k + 1 / 2 (d k - Φ (u)) 2 + C 2 = 1 / 2 [(d k - Φ (u)) 2 - 2 b k (d k - Φ (u)) + (b k) 2] + C 3 = 1 / 2 (d k - Φ (u) - b k) 2 + C 3

$\nabla \Phi^T (u-u^k)b^k+1/2(d^k-\Phi(u))^2 \\ = b^k [\Phi(u^k)+\nabla\Phi^T(u-u^k)+R_{u_k}]+1/2(d^k-\Phi(u))^2+C_1 \\ = b^k\Phi(u)+b^kd^k+1/2(d^k-\Phi(u))^2+C_2 \\ = 1/2[(d^k-\Phi(u))^2-2b^k(d^k-\Phi(u))+(b^k)^2]+C_3 \\ = 1/2(d^k-\Phi(u)-b^k)^2+C_3$
所以得到: