论文阅读-Robust Image Retargeting via Axis-Aligned Deformation

标题:Robust Image Retargeting via Axis-Aligned Deformation
年份:2012
作者:Daniele Panozzo,Ofir Weber,Olga Sorkine
代码:AARetargetingSource.zip
作者主页:HomePage

作者一个意大利人,一个瑞士人,一个美国人,老觉得文章读起来有点不顺,是我太菜了吗…T_T…

论文阅读--【AAD】通过轴对齐变形的鲁棒图像重定向

摘要

我们提出轴对齐变形空间作为内容感知图像重定向的有意义空间。

这种变形排除了局部旋转,避免了有害的视觉失真,并且它们在1D被参数化。

我们证明了用于图像重定向的标准翘曲能量可以在轴对齐变形的空间中最小化,同时保证满足双射性约束,导致高质量、平滑和鲁棒的重定向结果。

由于1D参数化,我们的方法只需要求解一个小的二次方程,这可以在CPU上在几毫秒内完成,没有预计算开销。

我们演示了如何使用我们的方法实时改变图像大小和显著图,并在各种输入图像上显示结果,包括RETARGETME数据集。

我们将我们的结果与用户研究中的其他六种算法进行了比较,以证明轴对齐变形的空间适用于手头的问题。

1.介绍

为了避免因均匀缩放而导致的图像失真,或因剪切而导致的重要部分被丢弃,开发了内容感知的重定向技术。

缺少局部旋转导致重定向变形成为轴对齐,即变形后等参线保持直线和平行,仅改变它们之间的间距(见图2)。
在这里插入图片描述
因此,我们的主要观察是,轴对齐变形的空间是内容感知图像重定向的合适空间

这个观察有重要的结果。首先,变形空间可以在1D参数化,因为轴对齐的变形由垂直和水平等参线之间的间隔确定。

以前的重定向方法参数化2D中的变形,导致 M × N M\times N M×N 个未知数数量级的优化问题,其中 M , N M,N MN 是垂直和水平输入图像分辨率,而1D参数化只需要 O ( M + N ) O(M+N) O(M+N) 个未知数。

此外,防止折叠和控制轴对齐变形的拉伸是简单和鲁棒的,因为它仅仅对等参线间距构成线性不等式约束。

这些约束总是可以以可行的方式提出,这与先前提出的关于缺少折叠的2D约束相反。

2.先前工作

基于翘曲的内容感知重定向方法,往往定义一个能量函数,并在给定的目标图像尺寸的边界条件下最小化这个函数。

这个能量通常测量翘曲相对于形状保持变形(例如平移,刚性变换,相似性)的局部偏差,由重要性图加权。。。。。。

我们在变形空间中直接对轴对齐进行编码,并证明它不仅极大地减少了优化问题的规模,而且提供了高质量的重定向结果,同时保证了鲁棒性。

3.算法

我们展示了如何在轴对齐的变形空间中,将内容感知的图像大小调整问题转换为一个小的二次方程。

变量的数量在图像边界的大小上是线性的。

我们最小化的能量函数是凸函数 ,并且找到全局最小值通常需要不到4 ms。

输入图像的宽度和高度记为 W W W H H H

与大多数基于翘曲的重定向方法一样,我们在图像上覆盖一个均匀的网格,有N列和M行;

在初始网格中,每列(也是每一个网格)的宽度 W / N W/N W/N ,每行的高度 H / M H/M H/M

任务是为调整大小的图像计算一个变形的网格,具有所需的总宽度 W ′ W' W H ′ H' H

在连续的设置中,一个轴对齐变形能够完全由沿边界的垂直和水平变形导数来描述。

在我们的离散设置中,我们假设轴对齐变形是分段线性的(在每个网格单元上是线性的),因此它完全由变形网格列的宽度和变形网格行的高度决定。
在这里插入图片描述


s r o w s = ( s 1 r o w s , s 2 r o w s , . . . , s M r o w s ) s^{rows}=(s_1^{rows},s_2^{rows},...,s_M^{rows}) srows=(s1rows,s2rows,...,sMrows) 表示行的未知高度,
s c o l s = ( s 1 c o l s , s 2 c o l s , . . . , s N c o l s ) s^{cols}=(s_1^{cols},s_2^{cols},...,s_N^{cols}) scols=(s1cols,s2cols,...,sNcols) 表示列的位置宽度。
轴对齐变形因此可以表示为未知变量的向量 s = ( s r o w s , s c o l s ) T ∈ R M + N s=(s^{rows},s^{cols})^T\in R^{M+N} s=(srows,scols)TRM+N

计算重定向图像网格的优化的一般形式是:
m i n i m i z e ( s T Q s + s T b ) . . . . . . . . . . . . . . . ( 1 ) minimize (s^TQs+s^Tb)...............(1) minimize(sTQs+sTb)...............(1)

边界条件:
s i r o w s ≥ L h , i = 1 , . . . , M . . . . . . . . . . . . . . ( 2 ) s_i^{rows}\geq L^h,i=1,...,M..............(2) sirowsLh,i=1,...,M..............(2)
s j c o l s ≥ L w , j = 1 , . . . , N . . . . . . . . . . . . . . ( 3 ) s_j^{cols}\geq L^w,j=1,...,N..............(3) sjcolsLw,j=1,...,N..............(3)
s 1 r o w s + . . . + s M r o w s = H ′ . . . . . . . . . . . . . . ( 4 ) s_1^{rows}+...+s_M^{rows} = H'..............(4) s1rows+...+sMrows=H..............(4)
s 1 c o l s + . . . + s N c o l s = W ′ . . . . . . . . . . . . . . ( 5 ) s_1^{cols}+...+s_N^{cols}=W'..............(5) s1cols+...+sNcols=W..............(5)

为了使上面的二次求解问题(QP)可行,我们只需要令
L h ≤ H ′ / M , L w ≤ W ′ / N L^h\leq H'/M,L^w\leq W'/N LhH/M,LwW/N
简单的均匀缩放提供了一个可行的解决方案

可行域是有界的, 并且由于 ∀ i ,   0 ≤ s i ≤ m a x { H ′ , W ′ } \forall i,\ 0\leq s_i\leq max\{H',W'\} i, 0simax{H,W},使得(1)中的目标函数在可行区域中是有限的。

能量应该这样定义,Q是正(半)定的;我们的问题是凸的,可以用标准的QP解算器求解。

3.1 能量函数

先验知识:
最小二乘法公式:
∣ ∣ A s − B ∣ ∣ 2 2 = ( A s − B ) T ( A s − B ) ||As-B||_2^2=(As-B)^T(As-B) AsB22=(AsB)T(AsB)
= s T A T A s − 2 s T A T B + B T B =s^TA^TAs-2s^TA^TB+B^TB =sTATAs2sTATB+BTB
在这里插入图片描述

图像重定向方法依赖于显著图 ω ( x , y ) \omega(x,y) ω(xy),该显著图为图像的每个像素分配0到1之间的重要性值。

我们的目标是计算一个变形,尽可能地保留显著区域的图像,并将不可避免的变形集中在不太重要的区域。为了在我们的公式中整合显著性图 ω \omega ω,我们在原始图像上的网格的每个单元内平均它的值,并且我们获得显著性矩阵 Ω ∈ R M × N \Omega\in R^{M\times N} ΩRM×N。在我们的分段线性设置中,这种每个单元的显著性积分是适当的有限元(FEM)离散化。

在我们的框架中,我们考虑了两种能量,它们通常被先前成功的重定向方法所使用:

  • Similar-As-Possible (ASAP)能量:产生局部接近相似的变形
  • As-Rigid-As-Possible (ARAP)能量:惩罚除平移和旋转以外的所有局部变形

图4显示了这些能量的示例结果。

在这里插入图片描述
ASAP能量
在轴对齐变形的空间中,由于旋转被消除了,一个相似变形是均匀缩放和平移的组合。

ASAP能量因此最小化不均匀缩放:
E A S A P = ∑ i = 1 M ∑ j = 1 N ( Ω i , j ( M H s i r o w s − N W s j c o l s ) ) 2 . . . . . . . . . . . . . . . . . ( 6 ) E_{ASAP}=\sum_{i=1}^M\sum_{j=1}^N(\Omega_{i,j}(\frac{M}{H}s_i^{rows}-\frac{N}{W}s_j^{cols}))^2.................(6) EASAP=i=1Mj=1N(Ωi,j(HMsirowsWNsjcols))2.................(6)

两个因子 M / H M/H M/H N / W N/W N/W 补偿原始网格中单元格的纵横比。

为了使用我们的QP框架最小化这种能量,我们定义了下面的矩阵 K ∈ R ( M N ) × ( M + N ) K\in R^{(MN)\times (M+N)} KR(MN)×(M+N)

K k , l { Ω r ( k ) , c ( k ) M H i f   l = r ( k ) − Ω r ( k ) , c ( k ) N W i f   l = M + c ( k ) 0 o t h e r w i s e K_{k,l}\left\{\begin{matrix} \Omega_{r(k),c(k)}\frac{M}{H} & if \ l=r(k)\\ & \\ -\Omega_{r(k),c(k)}\frac{N}{W} & if \ l=M+c(k)\\ & \\ 0 & otherwise \end{matrix}\right. Kk,lΩr(k),c(k)HMΩr(k),c(k)WN0if l=r(k)if l=M+c(k)otherwise
其中, r ( k ) = ⌈ k / N ⌉ r(k)=\left \lceil k/N \right \rceil r(k)=k/N, c ( k ) = ( ( k − 1 )   m o d   N ) + 1 c(k)=((k-1) \ mod \ N)+1 c(k)=((k1) mod N)+1
从这个等式, K s K_s Ks 给出了每行带有能量项的向量,并且 E A S A P = s T K T K s E_{ASAP}=s^TK^TKs EASAP=sTKTKs

使用等式(1)中的通用符号, Q = K T K , b = 0 Q=K^TK,b=0 Q=KTK,b=0。显然,Q是半正定矩阵,这样能量是凸的。

个人猜测性推导验证(感觉好理解一点)
在这里插入图片描述

ARAP 能量
在我们的轴对齐变形空间中,一个刚性变换会被简化为一个平移,因为定义中旋转是不被允许的。

因此ARAP能量最小化均匀与不均匀缩放:
E A R A P = ∑ i = 1 M ∑ j = 1 N Ω i , j 2 ( ( M H s i r o w s − 1 ) 2 + ( N W s j c o l s − 1 ) 2 ) E_{ARAP}=\sum_{i=1}^M\sum_{j=1}^N\Omega_{i,j}^2((\frac{M}{H}s_i^{rows}-1)^2+(\frac{N}{W}s_j^{cols}-1)^2) EARAP=i=1Mj=1NΩi,j2((HMsirows1)2+(WNsjcols1)2)

为了利用我们QP框架最小化这个能量,我们定义了如下两个矩阵 R t o p , R b t m ∈ R ( M N ) × ( M + N ) R^{top},R^{btm}\in R^{(MN)\times (M+N)} Rtop,RbtmR(MN)×(M+N):
R k , l t o p = { Ω r ( k ) , c ( k ) M H i f   l = r ( k ) 0 o t h e r w i s e . . . . . . . . . . . . . ( 8 ) R_{k,l}^{top}=\left\{\begin{matrix} \Omega_{r(k),c(k)}\frac{M}{H} & if \ l=r(k)\\ 0 & otherwise \end{matrix}\right..............(8) Rk,ltop={Ωr(k),c(k)HM0if l=r(k)otherwise.............(8)
R k , l b t m = { Ω r ( k ) , c ( k ) N W i f   l = M + c ( k ) 0 o t h e r w i s e . . . . . . . . . . . . . ( 9 ) R_{k,l}^{btm}=\left\{\begin{matrix} \Omega_{r(k),c(k)}\frac{N}{W} & if \ l=M+c(k)\\ 0 & otherwise \end{matrix}\right..............(9) Rk,lbtm={Ωr(k),c(k)WN0if l=M+c(k)otherwise.............(9)

其中, v ∈ R M N , v k = Ω r ( k ) , c ( k ) v\in R^{MN}, v_k=\Omega_{r(k),c(k)} vRMN,vk=Ωr(k),c(k)

我们现在可以用矩阵符号重写ARAP能量:
E A R A P = ( [ R t o p R b t m ] s − [ v v ] ) T ( [ R t o p R b t m ] s − [ v v ] ) E_{ARAP}=\left ( \begin{bmatrix} R^{top}\\ R^{btm} \end{bmatrix} s-\begin{bmatrix} v\\v \end{bmatrix}\right )^T\left ( \begin{bmatrix} R^{top}\\ R^{btm} \end{bmatrix} s-\begin{bmatrix} v\\v \end{bmatrix}\right ) EARAP=([RtopRbtm]s[vv])T([RtopRbtm]s[vv])

在公式(1)的通用符号中,
Q = [ R t o p R b t m ] T [ R t o p R b t m ] Q=\begin{bmatrix} R^{top}\\R^{btm} \end{bmatrix}^T\begin{bmatrix} R^{top}\\R^{btm} \end{bmatrix} Q=[RtopRbtm]T[RtopRbtm], b = − 2 [ R t o p R b t m ] T [ v v ] b=-2\begin{bmatrix} R^{top}\\R^{btm} \end{bmatrix}^T\begin{bmatrix} v\\v\end{bmatrix} b=2[RtopRbtm]T[vv]
个人猜测性推导验证(感觉好理解一点)
在这里插入图片描述

同样,Q矩阵的形式清楚地表明它是半正定的,因此ARAP能量是凸的。

注意即使中间矩阵 K , R t o p , R b t m K,R^{top},R^{btm} K,Rtop,Rbtm M N MN MN 行,它们非常稀疏,而且在程序上构建速度很快。

结果 QP的 Q Q Q 矩阵是正方形,有M+N行/列,这意味着它们很密集但很小。还要注意的是,在我们的轴向变形空间中,其他能量也可以类似地表述出来;

我们选择将注意力集中在以上两个能量,因为它们是常用的,通常会提供良好的结果。此外,可以线性组合这两种能量,以获得可选的自由度。

可以通过将参数 L w L^w Lw L h L^h Lh 设置为零,自然地将裁剪结合到我们的方法中。然后,优化过程能够折叠行和列,从而裁剪原始图像

3.2 拉普拉斯正则化

我们可以用正则化能量来丰富上面显示的能量,从而增加最终变形的平滑度。

拉普拉斯正则化允许在图像上更均匀地分布变形,并且对于手动绘制的显著性图特别有用,因为它们倾向于将显著性集中在图像的不同部分上,并且在其他地方突然下降为零(即,这种显著性图非常不平滑)。

拉普拉斯正则化效果的例子见图6。
在这里插入图片描述
拉普拉斯项定义为:
E r e g = ∑ i = 1 M − 1 ( M H ( s i + 1 r o w s − s i r o w s ) ) 2 + ∑ j = 1 N − 1 ( N W ( s j + 1 c o l s − s j c o l s ) ) 2 . . . . . . . . . . . . . . . . . . . ( 12 ) E_{reg}=\sum_{i=1}^{M-1}(\frac{M}{H}(s_{i+1}^{rows}-s_i^{rows}))^2+\sum_{j=1}^{N-1}(\frac{N}{W}(s_{j+1}^{cols}-s_j^{cols}))^2...................(12) Ereg=i=1M1(HM(si+1rowssirows))2+j=1N1(WN(sj+1colssjcols))2...................(12)

正则化会惩罚大小差异很大的两个相邻行或列。请注意,使拉普拉斯最小化的变形是均匀缩放,使得该正则化项可以被视为混合均匀调整大小和由加权因子 w r e g ≥ 0 w_{reg}\geq 0 wreg0 控制的ASAP 或ARAP变形的一种方式。

为了将正则化项纳入QP(1),我们简单地将能量项 s T ( w r e g L ) s s^T(w_{reg}L)s sT(wregL)s 加入能量函数,其中 L L L 是等式(12)中标准的拉普拉斯矩阵。换句话说,我们将矩阵 w r e g L w_{reg}L wregL 加入等式(1)中的 Q Q Q

拉普拉斯矩阵是半正定的,因此这个能量项不会损害问题的凸性。
在这里插入图片描述

3.3 三次样条插值

什么是三次样条插值?
可以看这个视频 插值法:三次样条插值函数,数值微分,共4集(特别第2,3集),看一下可以快速理解!

ASAP和ARAP能量的公式,以及拉普拉斯正则项,是连续对应物的适当的线性有限元近似,使得在均匀网格细化下收敛是预期的。

我们已经观察到,优化的结果不太依赖于网格分辨率(见图7);这也是有意义的,因为我们在1D参数化的受限变形空间不允许巨大的局部变化。
在这里插入图片描述
25×25的粗网格分辨率(即50个优化变量)在大多数情况下足以真实地描述变形图。然而,这种粗略的双线性网格可能不足以为具有非常高分辨率的图像提供高质量的结果,因为双线性插值在网格线上不平滑。

为了改善高分辨率图像的插值结果,我们可以选择使用B样条插值来对重采样网格进行上采样。

我们使用变形的网格顶点作为控制点,定义了一个均匀的三次B-样条。

这可以在1D使用两个1D立体B样条来实现:一个用于行,一个用于列。
我们对密集水平和垂直位置的样条进行采样,以便产生任意分辨率的新网格。
最终的重定向图像是通过在这个更精细的网格上双线性插值创建的。

我们的变形网格所描述的变形保证始终是双射的,并且由于变化递减特性,用样条获得的更精细的网格也保证是无折叠的。图8给出了一个改进的例子。
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值