摘要
活鱼识别是快速获取大量数据的渔业调查应用中最关键的元素之一。与一般场景不同,水下图像识别面临的挑战是图像质量差、目标和环境不可控以及难以获取代表性样本。此外,大多数现有的特征提取技术由于涉及人的监督而阻碍了自动化。为此,我们提出了一个水下鱼类识别框架,该框架由完全无监督的特征学习技术和容错分类器组成。基于显著性和松弛标签初始化对象部分,以正确匹配对象部分。然后根据适应度、分离和判别标准学习非刚性零件模型。对于分类器,无监督聚类方法生成二元类层次结构,其中每个节点都是一个分类器。为了利用模糊图像中的信息,引入部分分类的概念,通过优化分类器的不确定性来分配粗糙标签。实验表明,该框架对公开和自采集的水下鱼类图像都具有较高的精度,且具有较高的不确定性和类别不平衡性。
Introduction
水下摄像机的图像处理和分析技术越来越受到人们的关注,因为它们能够实现渔业调查的非提取和非致命方法。例如,通过使用摄像头和半水拖网(称为Cam拖网[7])的组合,鱼群在捕鱼时通过捕获图像或视频进行采样。基于摄像机的取样方法不仅保存了枯竭的鱼类种群,而且还提供了一种有效的方法来对更多的海洋动物进行取样。然而,这种方法可以非常快速地生成大量数据。因此,迫切需要一个自动图像处理系统来实现这种采样方法。为此,我们开发了通过自动对象分割、大小估计、计数和跟踪来分析收集数据的技术[8]–[10]。基于此,通过开发一种可靠的物种识别算法,可以实现基于摄像头的自动渔业调查系统,该算法允许监测物种组合,评估鱼类种群以及生态系统。
虽然图像处理和计算机视觉领域已经对各种背景下的目标识别进行了深入研究,但在无约束的自然环境中识别活鱼仍然存在根本性的挑战。与大多数水下图像场景一样,一个挑战是由于水中光的快速衰减、照明控制不善、无处不在的有机碎屑等造成的低图像质量。在为自由游动的鱼类拍摄图像时,由于低图像质量,许多数据存在高度不确定性,非侧面鱼眼视图或弯曲的身体形状。这会严重降低识别性能,因为某些关键信息可能会丢失。即使没有不确定性,鱼类在物种间也有很强的视觉相关性。在这种情况下,用于对象识别的常见图像特征通常没有足够的辨别力。
统计或机器学习技术应用中的另一个常见挑战是不确定或缺失样本的存在。处理这一事实的一种策略是部分分类,即允许分类器在数据空间中的某些区域进行不确定。部分分类在各种实际应用中显示了其有效性[11]–[13]。但是,由于没有检索到有关数据的信息,因此被拒绝实例的重要性已经消失。此外,还没有提出确定决策标准的系统方法。由于可以根据领域知识或视觉相似性将对象自然分类为更高的类别分组,因此识别算法将通过自动获得类别之间的层次关系,然后提供从粗到精的分类,从而从中检索部分信息那些不确定的数据。
图1.无监督非刚性部件学习算法的概览。在训练阶段,对象部分被初始化,且和训练图像相关联。非刚性部分模型经由一个非监督算法从图像中学习得到。在测试阶段,模型在每张测试图像中定位那些提供有用信息的对象部分。每个部分的位置,大小和外观作为特征被提取出来。最后,这些特征被用于训练一个细粒度对象分类器。
在本文中,我们提出了一种新的特征学习和对象识别框架,以解决上述挑战,如图1所示。该框架的一个优点是,它使用完全无监督的算法来学习特征和类别相关性,从而为实际的识别系统提供了一个自动解决方案。具体而言,本文的贡献包括:1)一种新颖的非刚性部件模型,该模型同时表示鱼体的外观和几何属性;2) 提出了一种基于系统部件初始化和类期望最大化(EM-like)交替优化算法的非刚性部件模型无监督学习算法;3) 一种新的分层部分分类方法,成功地处理了数据不确定性和类别不平衡问题;4) 一种基于优化公式确定决策标准的形式化方法
Related Work
A.鱼类识别
在基于摄像头的渔业调查系统中,活鱼识别是最关键的要素之一[2]-[5]。与大多数识别框架类似,信息特征的成功提取是提高鱼类识别性能的关键。现有的特征提取技术分为有监督和无监督两大类。监督方法通过预先指定的特征来表示鱼,这些特征采用常见的低级图像描述符,如轮廓形状。例如,Lee等人[5]使用曲率分析方法来定位关键地标点。基于这些标志点提取感兴趣的等高线片段,以获得令人满意的基于形状的物种分类结果。在他们随后的工作[3]中,这些特征被进一步扩展,包括一些形状描述符,如傅立叶描述符、多边形近似和线段。为了提高分类速度,提出了一种基于归一化长度的切线空间轮廓的幂倒谱技术。SPAMPIATO等人〔2〕提出了考虑外形属性的鱼描述符,如轮廓形状之外的纹理。然而,由于鱼类的巨大多样性,为某些物种设计的一组特征不能保证对其他物种具有判别性。此外,即使基于领域知识,手动选择的特征也可能导致次优识别性能。
另一方面,无监督方法直接从图像中学习信息特征。在细粒度对象识别文献[14]–[18]或用于场景识别的鉴别性中级图像块发现文献[19],[20]中可以找到此类方法中的一些方法。还有其他基于传统特征选择理论的无监督方法[21]。我们对有监督和无监督的方法进行了系统的比较,结果表明,无监督的方法通常会导致更好的识别性能[22]。在此基础上,我们扩展了本文中的无监督特征学习算法,提出了一种新的非刚性零件模型,该模型考虑了零件的几何结构,可以以完全无监督的方式进行学习。
B.具有数据不确定性的分类
统计学中处理不确定数据的传统策略包括丢弃这些样本或进行插补,其中使用估计值来填充缺失值。一些工作通过假设不同的噪声分布,将分类公式与稳健统计概念相结合[12],[13]。Huang等人[4]使用启发式构造的分层分类器来控制误差累积。但是,一旦发生错误,错误仍然会传播到叶层。对于部分分类,Ali等人[12]建议确定是否基于数据挖掘技术做出决策。提出了一种证据分类方法[23],[24],用于将难以分类的不完整对象提交到具有信念函数的关联类集合中。Baram[13]引入了一个效益函数,用于评估延迟决策,并穷尽地搜索最优决策标准。我们推广了收益函数的定义,并提出了一种基于指数函数的新公式,系统地帮助选择部分分类器的决策标准 。
C.对比以前的工作
本文是在我们之前关于鱼类识别的无监督特征提取[22]和分层部分分类[25]工作的基础上进行的扩展。本文描述的方法与以前工作的主要区别可以在两个方面找到。一种是使用显著性操作来初始化零件位置,而不是任意分割边界框。这系统地为每个零件提供了一个合理的起始位置,可以避免在交替优化过程中出现局部最优。另一个方面是通过松弛标记过程进行零件对齐。基于一些拓扑约束,尽管姿势发生变化,零件仍然能够成功地从一个图像匹配到另一个图像。与现有的基于模板的方法相比,该步骤不仅确保了零件特征学习过程中的正确性,还提供了更高的空间灵活性[14]。
NON-RIGID PART MODEL
给定一组训练图像,目标是根据对象的从属类别发现对象的区别特征。设
表示由部件外观
,部件中心位置
和部件尺寸
组成的模型,其中K是对象部件的数量。对于每个图像
,我们相应地表示
和
。每个部分的位置和大小相对于图像大小,即
标准化。模型M被称为非刚性部件模型,因为它描述了常见部件,并允许在位置和比例上变形。基于此,学习此类模型的问题可以写成一个约束最小化规划问题:
其中是模型的目标函数。注意,(2)和(3)表示
和
的条目式不等式。为了对对象部分的外观和几何结构进行建模,目标函数
考虑了三个因素:1)适应度,它计算模型和图像区域之间的外观相似性;2) 分离,它引导检测到的部分匹配尽可能不相交的区域,而不是集中在图像的几个区域;3)区分,鼓励所选部件具有彼此不同的外观,以便捕获对象外观的尽可能多的方面。
A.适应度
对应于某一目标部位的图像区域与模型具有较高的外观相似度。因此,通过部件外观和由中心位置
和尺寸
定义的图像
中矩形区域的外观之间的距离来计算适应度代价。我们用
表示这个区域,适应度cost由下面的式子得出:
其中表示一个图像区域的特征描述符,
是两个外观特征向量P,Q的距离。对于文章接下来的部分,为了方便,我们用
代替
。
B.分离
分离cost强制各部分覆盖整个对象的最大面积。这是通过最小化由的位置大小元组
和
定义的图像区域的总重叠率来实现的。
重叠率定义为两个矩形的交和它们的并之间的面积比,即:
为了方便起见,我们用来表示
。
C.区分度
它期望非刚性部件模型能够覆盖对象的每个代表性部件。因此,引入区分度cost以鼓励最大化每对部件特征和
之间的距离,即:
其中d是和(4)式一样的度量。
D.目标函数
有了上述cost函数,最终目标函数写为:
非刚性部件模型,即部件特征、位置和尺寸,通过在给定训练集上最小化(8),使用下一节中描述的建议无监督学习算法进行训练。
IV.无监督特征学习
现在我们有了一个非刚性部件模型——每个部件的特征、位置和尺寸——表示对象的局部外观和配置,以及一个最小化以找到模型的目标函数(8)。一种类似EM的算法,即交替优化,可以采用无监督的方法从训练图像中学习此类模型。通过系统初始化技术,学习最终特征描述符不需要对零件进行人工注释。
A.部件初始化
交替优化的有效性只保证收敛到局部最优。为了确保获得良好的解决方案,我们提出了一种系统的方法来初始化部件模型。请注意,区分细粒度类别的大多数细节都与人类感知到的突出部分相匹配,例如鸟的喙、花的花瓣或鱼的尾鳍。为此,显著性操作可以完美地工作。有各种各样的技术被用来估计图像的显著性。为了有效处理大量数据,我们采用了[26]中描述的相位傅里叶变换(PFT)方法。给定一幅图像,我们计算其二维离散傅里叶变换,该变换可用幅值项和相位项
表示,即:
通过仅对相位项进行傅里叶逆变换获得显著性,即:
其中是具有标准偏差σ的二维高斯滤波器。非最大值抑制用于从显著性图中提取局部最大值。在这里,我们使用[8]生成的对象分割遮罩来丢弃背景中的显著点。请注意,使用给定的分割不会使我们的学习方法受到监督,因为可以通过现有技术(如GrabCut分割)轻松生成遮罩[27]。最后,我们选择前K个局部极大值位置,每个位置作为初始部分。基于PFT显著性的零件初始化示例如图2所示。
图2.基于PFT显著性的部分初始化。(a)是输入图像.(b)是对(a)进行PFT的结果,(c)是分割遮罩内高显著值的点,(d)是初始化的部分
由于姿势变化,一个对象部分可能出现在两个图像中的不同位置。为了确保学习的正确性,将提取的点从一幅图像对齐到另一幅图像非常重要。在所提出的方法中,我们将部件识别描述为一对一关联问题,并应用松弛标记过程,如下所示:
假设参考集包含K个部分位置,由Y={y1,…,yK}表示,候选集还包含K个零件位置X={x1,…,xK}。零件识别的目标是找到候选部件与参考部件之间的最佳关联,这类似于经历一些非刚性变形的两组二维点之间的匹配问题[28],[29]。关联可以用(k+1)×(k+2)二进制矩阵表示,当席西与YJ和πiJ=0相关时,πiJ=1。每一行对应一个候选部件,每一列对应一个参考部件。增加的行和列表示“异常值”,表示某个候选零件或参考零件不匹配的情况。引入离群值概念有两个好处。首先,它允许处理大量姿势变化或部分遮挡。此外,它有助于在两个零件位置集之间施加一对一的匹配约束。
在松弛标号中,二元约束πij∈ {0,1}松弛为πij∈ [0, 1]. 已经证明πij收敛于0或1[29]。在迭代过程中,通过利用上下文信息来更新每个条目πij,上下文信息由相容系数r(i,j,k,l)表示∈ [0, 1]. r(i,j,k,l)的高值对应(xi,yj)和(xk,yl)之间的高关联可能性。当零件配置为非刚性时,相容系数仅考虑席和YJ(28)、[29 ]的局部邻域。在这里,我们定义了两个部分席席和XK是彼此的邻居,只有当XI是XKD的k个最接近的部分之一,反之亦然。在实验中,我们设定k=3,这给出了有希望的结果。对于每个部分席,其邻居的索引用一个集合Ni表示。