计算机视觉之图像分割——Snake模型(1译文)

最新推荐文章于 2024-06-25 15:07:00 发布

Vic时代

最新推荐文章于 2024-06-25 15:07:00 发布

阅读量4.3k

点赞数 3

分类专栏：计算机视觉文章标签：计算机视觉 snake

计算机视觉专栏收录该内容

19 篇文章 6 订阅

订阅专栏

本文翻译了关于Snake模型的资料，这是一种用于图像分割的active contour model。Snake模型利用能量最小化的样条曲线，受外部约束力和图像特征吸引，擅长处理边缘检测、角点识别等任务。它具有交互式控制、自适应和尺度敏感等优点，但也存在易受初始位置影响、可能陷入局部最小值等问题。目前，研究重点在于模型的泛化和能量最小化过程的优化。

摘要由CSDN通过智能技术生成

本文为
http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/RAMANI1/node31.html的翻译。

针对图像分割问题，Kass提出了一种算法。他对可以在存在噪声和其他模糊的情况下仍能识别相似对象的基于模型的技术非常感兴趣。1987年Kass提出了snake的概念，snake是一种active contour model（注：下面把这个术语翻译成活动轮廓模型），使用”an energy minimizing spline guided by external constraint forces and influenced by image forces that pull it towards features such as lines and edges.”snakes在处理如边缘检测、角点识别、动态跟踪以及立体匹配等任务上非常成功。

样条(spline)是用于描述或者估计曲线或者曲面的多项式或者一组多项式。尽管组成样条的多项式可以是任意阶的，但最常用的是三次多项式。例如，简单的二维曲线可以由下面一对三次方程近似：

x (u) = a x u 3 + b x u 2 + c x u + d x

$x(u)=a_xu^3+b_xu^2+c_xu+d_x$

y (u) = a y u 3 + b y u 2 + c y u + d y

$y(u)=a_yu^3+b_yu^2+c_yu+d_y$
高阶多项式有我们不想要的非局部属性。对复杂形状，可以通过放置结（也称控制点）来将其分解成具有较少拐点的小区域。在上面的方程中，变量

u $u$ 称为样条参数，一般取值范围为[0,1]。因为三次多项式最多有两个拐点，复杂形状需要被分解成至多两个拐点的更简单的段。尽管系数a, b , c, d唯一地确定样条的形状，但是通常不直接指定。而是从其他约束计算，比如在相邻多项式段之间的边界点处的零阶、一阶、二阶导数的连续性。

snakes属于活动轮廓模型是因为它们在搜索能量最小状态的过程中动态地改变自身的形状和位置。一个二维的动态轮廓 $v$ 可以根据其 $x$ 和 $y$ 坐标来定义， $x$ 和 $y$ 又由线性参数 $s$ 和时间参数 $t$ 来定义：

v (s, t) = (x (s, t), y (s, t))

$v(s,t)=(x(s,t),y(s,t))$
其中

s∈ω $s\in \omega$ ，一般定义成比区间[0,1]。而

t∈T $t\in T$ ，一般定已成半开区间[0, \infty]。最小化样条能量的系数可以通过最优化或者微分找到。

在Kass的原模型中，一个snake的总能量由三个子项组成：

E t o t a l = 1 2 \int ω [E i n t e r n a l + E i m a g e + E c o n s t r a i n t]

$E_{total}=\frac{1}{2} \int_\omega[E_{internal}+E_{image}+E_{constraint}]$
其中

Einternal $E_{internal}$ 是样条的内部能量，仅仅取决于样条的形状。

Eimage $E_{image}$ 是图像能量，只取决于在样条路径上的图像强度值。

Econstraint $E_{constraint}$ 是约束能量，由用户或者高级控制代理施加的人工能量场创建的。也可以定义其他能量项，但本文只讨论这三项。
内部能量定义成：

E i n t e r n a l = α | \partial v \partial s | 2 + β | \partial 2 v \partial s 2 |

$E_{internal}=\alpha|\frac{\partial v}{\partial s}|^2+\beta|\frac{\partial^2 v}{\partial s^2}|$
其中

α $\alpha$ 控制snake的伸展，

β $\beta$ 控制snake的弯曲。大的

α $\alpha$ 值会增加snake的内部能量，因为snake伸展地越来越多，而小值使得能量函数对伸展量不敏感。类似地，

β $\beta$ 的值大时会增加snake的内部能量，因为出现更多曲线，而值小时，会使得能量函数对snake中的曲线不敏感。

α $\alpha$ 和

β $\beta$ 值都小时，对snake的大小和形状的限制减少。
图像能量定义成：

E i m a g e = ω 1 I (x, y) + ω 2 | \nabla I (x, y) | 2 + \dots

$E_{image}=\omega_1I(x,y)+\omega_2|\nabla I(x,y)|^2+\cdots$
其中

ω1 $\omega_1$ 是线系数，

ω2 $\omega_2$ 是边系数。当

ω1 $\omega_1$ 为正的且值大时，倾向于让snake和图像中的dark区域对齐；为负且值大时，倾向于让snake和图像中的brigth区域对齐；绝对值比较小时，使得snake对图像中的强度值不敏感。类似地，

ω2 $\omega_2$ 为正、大值时，使得snake和图像中的锐利边缘对齐；为负、大时，使得snake避免这些边缘；绝对值比较小时，使得snake和图像中的边无关。
约束能量定义：

E c o n s t r a i n t = - Σ i k i (x 1 i - x 2 i) + Σ j m a x (p e a k j, 1 r j)

$E_{constraint}=-\Sigma_i k_i(x_{1i}-x_{2i})+\Sigma_jmax(peak_j, \frac{1}{r_j})$
其中

ki $k_i$ 项是外部弹簧因素，

ri $r_i$ 项称为火山因素。当

ki $k_i$ 为大值时，使得snake表现的好像有弹簧连接着图像上的一点

(x1i) $(x_{1i})$ 和snake上的一点

(x2i) $(x_{2i})$ ,

ki $k_i$ 越大弹簧的力量越大。

ri $r_i$ 项被称为火山，是因为

max(peakj,1rj) $max(peak_j, \frac{1}{r_j})$ 的图类似于对称火山的轮廓。
计算上，火山项充当着距离snake上的点

rj $r_j$ 长的图像点的排斥力，

peakj $peak_j$ 的值越大，排斥力越强。弹簧和火山是捕捉图像高层次知识以及图像特征的一种方法。
通过内部能量力和图像能量力，snake会以自动地方式找到希望的图像特征。用户可以交互地设置弹簧力以限制snake操作的区域。用户也可以设置火山力来定义snake应该避免的区域。

snake相对于经典的特征提取方法有以下优点：

通过正确放置的弹簧和火山可以以交互方式控制snake
容易操控，因为图像力是以直观的方式表现
在寻找最小能量状态的时候它们是自主的和自适应的
可以通过在图像能量函数中加入高斯平滑而对图像尺度敏感
可以用于跟踪时间或者空间维度上的动态目标

snake的缺点：

初始位置不同使得结果不同
经常陷入局部最小状态，这也许可以通过使用模拟退火技术来克服，代价就是计算时间增加
在最小化整个轮廓路径上的能量过程中经常忽略微小特征
精度由能量最小化技术中使用的收敛标准控制；更高的精度要求更严格的收敛标准，因此需要更长的计算时间。

总而言之，snake是模型驱动的方法，用于解决许多困难的图像理解问题。就像人类的视觉，snake从一个先验模型开始，这个先验模型给出目标应该看起来是什么样。通过使用样条的平滑约束，他们能够填充丢失的和噪声的边界信息。因此，他们比非模型的方法更鲁棒，这些非模型方法很少使用图像结构信息。目前关于活动轮廓模型的研究中有很多在泛化轮廓的形式并克服在能量最小化过程中遇到的收敛和稳定性问题。