c++读出像素矩阵_多模态数据中的非负矩阵分解用于分割和标签预测

引用

Akata Z, Thurau C, Bauckhage C. Non-negative matrix factorization in multimodality data for segmentation and label prediction[C]. 2011.

摘要

随着 Internet 上带注释的多媒体数据的可用性不断提高,要求有一种技术可以实现不同类型数据的原则性联合处理。多视图学习和多视图聚类试图以同时的方式识别不同特征空间中的潜在成分。所得的基向量或质心忠实地代表数据上的不同视图,但是隐式耦合,并且它们是联合估计的。这为诸如标签预测,图像检索或语义分组之类的问题开辟了新途径。本文提出了一种用于多视图聚类的新模型,该模型将传统的非负矩阵分解扩展到不同数据矩阵的联合分解。因此,该技术为图像部分和属性的联合处理提供了一种新方法。图像分割和图像特征与图像标签的多视图聚类的首次实验显示出令人鼓舞的结果,并表明该方法为不同抽象级别的图像分析提供了一个通用框架。

1 动机和背景

社交网络的兴起和用户生成的内容运动已将 Internet 变成了一个几乎无限的,带有注释和评级的多媒体数据的存储库。例如,截至撰写本文时,flickr 上提供了超过 45 亿张图像,其中大多数由社区进行了标记,评级,分类和评估。这种发展为图像理解的研究提供了巨大的可能性,但同时也要求允许对不同类型的数据进行综合处理的方法。

我们的目标是对图像特征和图像标签进行原则上的联合处理。我们提出了一种用于多视图聚类的新技术,该技术可以同时确定不同特征空间中的潜在维数或质心向量。与诸如将不同类型的特征串联到单个描述符中的临时方法相反,多视图聚类忠实于不同描述符的不同特征。由于潜在分量或质心是联合估计的,因此多视图技术可进行高级推理。由于对于一个特征空间中的每个质心,在另一个空间中都有一个对应的质心,因此不同视图之间的转换非常简单。这为分割、自动图像标记或基于标签的图像检索提供了新的方法。

尽管它们具有悠久而古老的传统,但人们对多视图学习和多视图群集有了新的兴趣。可以同时发现不同空间中潜在成分的方法的典型示例是 Hotelling 的典型相关分析(CCA),该方法最近已经提出了核化和概率扩展。其他最近的发展考虑了将频谱聚类扩展到编码不同类型相似性的多个图。

我们的多视图聚类新方法将非负矩阵分解(NMF)扩展到几个数据矩阵的联合分解。它是出于以下注意事项:

1)与主成分分析(PCA)或奇异值分解(SVD)相似,CCA 不一定对诸如颜色直方图或项频率向量之类的纯非负数据具有合理性。但是,非负矩阵分解通常会产生可被视为基于零件的表示并适应人类感知的结果。

2)基于相似度矩阵的光谱聚类的方法随数据数量呈二次方缩放,因此在现代的大规模数据和图像分析问题中是禁止的。

3)另一方面,对于 NMF,存在有效的算法,该算法可将数十亿个条目的矩阵分解,这可能适用于多视图设置。

在下一部分中,我们阐明矩阵分解和聚类之间的关系。然后,在第 3 节中,我们根据研究现状简要回顾了 NMF,并将这种方法扩展到不同数据矩阵的联合分解。在第 4 节中,我们介绍了在图像分割,标签预测和图像检索中使用多视图 NMF 的实验。

2 矩阵降阶和聚类

在本节中,我们简要回顾一下矩阵秩降低如何应用于聚类或矢量量化问题。

aad625b33e4a1494c824efa069cbd19d.png

9af0d0c129b3879e67889693d68749b9.png

3 用于多视图聚类的 NMF

在本节中,我们首先总结非负矩阵分解(NMF),然后介绍我们对多视图聚类的 NMF 推广。

3.1 通过 NMF 分解数据

正交基向量(例如由 PCA 或 SVD 确定)并非始终是降维或聚类的最佳选择。特别是,仅由非负测量组成的数据在投影到由其主要特征向量跨越的低维子空间后,不能保证保持非负。作为对某些数据的非负性质正确的替代方案,Lee 和 Seung 推广了非负矩阵分解的概念。在计算机视觉中,图像数据通常由非负值组成,观察到 NMF 在分割,特征提取,运动或姿势估计方面可产生优异的结果。

NMF 被视为约束最小二乘优化问题,足以解决

9786118d374407f2fda9284e7f22bb7a.png

fd0956996db48ea4a3e537293ecf29c4.png

尽管(8)在 W 或 H 中都是凸的,但(8)中的基矢量和系数的同时估计不允许采用封闭形式的解,并且已知存在许多局部最小值。可证明存在一个唯一的最优值,但是迄今为止尚无法确定能找到它的算法。

3.2 通过 NMF 同时分解多视图数据

本文提出的工作背后的主要动机是对可提供不同类型数据的实体进行聚类。例如,可以通过不同的抽象图像特征来表征从 flickr 检索到的图像,但同时存在用户生成的描述其内容或形式的标记或标签。我们假设同时对数据的这些不同视图进行聚类将产生更有意义的聚类,并可能提供一种工具来填充丢失的信息。特别地,图像特征和图像标签的多视图聚类可以提供一种方法,该方法在给定图像的情况下预测一组标签或在给定一组查询标签的情况下从数据库检索相关图像。

假设有一组 n 个不同的图像,它的特征可以是 m _ n 个图像特征矩阵 X 以及 l _ n 个逐个图像矩阵 Y。我们的基本思想是为图像和文本特征分别找到合适的基数 W 和 V,它们通过一个公共系数矩阵 H 隐式耦合。换句话说,我们的目标是找到两个低秩近似。

1579864dda4cf10a16e280899ac44d5f.png

我们的解决方案是将此思想形式化为两个受约束的最小二乘问题的凸组合。

7ffb3231b8f578fc80937aae5e3b78f3.png

其中e5bbf91b90071c89636fd5472f315028.png 是用户指定的常数,它允许表达两种要素类型中任一种的偏好。就像(8)中的原始 NMF 问题一样,(11)中的扩展问题也不允许采用封闭形式的解决方案。因此,我们使 Lee 和 Seung 型不动点迭代适合于我们的情况。对于基向量 W 和 V 的矩阵,更新规则立即执行并读取:

1b74db827dc1d5e518eb5dc9486e93c6.png

由于系数矩阵 H 现在耦合两个基数,因此其更新要稍微多一些。系数的定点迭代的简化版本为:

293ab773cfaecfd9c33e6e27a8616269.png

3.3 讨论

我们在(11)中选择单个优化问题的凸组合并不是一个任意决定。非负矩阵分解与概率潜在语义分析之间存在着密切的联系。假设适当的归一化,NMF 可以理解为学习联合概率分布的参数,该参数表示为边际分布的乘积。通过选择两个 NMF 问题的凸组合,可以将此类推到学习分布分布的水平。这类似于潜在的 Dirichlet 分配,但我们将对未来的工作留下可能的影响。

我们注意到,通过设置cb06bdf1e059f9ed4784c60fc82ca56c.png,我们的模型及其更新会减少为 NMF 的原始形式。此外,该模型不限于两种不同类型的视图。它对 p 个不同视图的凸组合的扩展很简单:

cbd36f956438bc9fe3d559eb5e0c1f0c.png

最后,与所有交替最小二乘方案一样,可以保证多视图 NMF 的扩展更新算法的收敛性。我们省略了形式证明,但略述了论点:给定 H,(12)中的任何更新都不会增加(11)中的任何一项;给定 W 和 V,(13)中的更新不能增加(11)中的表达式。

4 实验

在以下小节中,我们介绍了通过使用多视图 NMF 进行图像分割,标签预测和图像检索获得的第一个实验结果。请注意,到目前为止,这些都是旨在验证该方法的初步实验。我们目前正在进行扩展的实验评估,以将所提出的方法与文献中的其他方法进行比较。

4.1 通过联合非负矩阵分解进行图像分割

在第一个系列实验中,我们将同时 NMF 应用于图像分割问题。我们考虑从 flickr 下载的自然场景的彩色图像。由于其所谓的感知均匀性,我们将 RGB 像素值转换为 LUV 色彩空间,这确保了色彩空间中等距的颜色在感知上也将等距。

为了将图像分割成均匀区域,我们从每个图像中采样了 1000 个像素,并建立了两个特征矩阵,一个包含 1000 个颜色信息的三维列向量,另一个包含 1000 个包含像素坐标的二维列向量。这样,我们将颜色与位置分开,并同时运行 NMF,以获得通过公共系数 H 耦合的各个空间中的质心向量 W 和 V。

我们进行了几个实验,其中我们改变了质心的数量 k = {4,10,20},加权参数= {0.1,0.5,0.9}。当较大时,对像素的颜色描述符给予更大的权重,而当较小时,对像素的位置给予更大的权重。在随机初始化为从高斯分布采样的正值之后,我们对矩阵 W,V 和 H 运行更新规则,直到收敛,但最多进行 100 次。

给定训练阶段的结果,这些实验中的测试阶段包括将图像的每个像素 x 分配给 k 个生成的聚类质心之一。给定 W 和 V,我们求解182d9981afebe19df396c62cb30d0996.png的系数 h,且聚类索引 c 根据

81cfd1426cbbd8e19bfaddad3fd51df7.png

623e50baffab650ca6f4309eccefa332.png

bc3c4a2644afe595e72a8b7a10d0072d.png

图 1

4.2 通过图像和文本特征的联合分解来进行标签预测和图像检索

该系列实验旨在探索多视图 NMF 是否能够填充丢失的信息。我们考虑了从 flickr 的“最有趣”类别中检索到的一组自然图像训练。这组训练图像包含 10 个不同类别的动机(云,月光,海滩,轮船,桥梁,山脉,森林,城市,教堂,城堡),我们考虑每个类别 300 张图像。

在这些实验中,使用局部自相似(SSIM)特征提取方案计算特征向量。然后将特征向量聚类为 k = 750 个视觉单词的视觉词汇。对于数据集中的每个图像,将创建此词汇表的直方图。接下来,将数据集中所有图像的各个直方图收集在图像特征矩阵482a3ef0879d733d34d94ee90209b730.png中。

c0fe6ece0b4c75aee9356d819efbde32.png

4.2.1 标签预测

b50ca3bf9197a46e712423dffd6019e2.png

e4b4a431c19980ceeda34d4b593b0b14.png

图 2

4.2.2 图像检索

给定 x,我们搜索ccd5a531c3011754886ae8fc4ad7fb7f.png最小的训练数据矩阵 X 的列向量 xi。表 2 中显示了与以下单词相对应的四个最相似的图像。

84e18bdcee0bab856fdbb00bd01545a9.png

表 1

5 结论与未来工作

本文介绍的工作旨在对图像进行分析,并为其提供更多信息。我们引入了一种用于多视图聚类的新模型,该模型将非负矩阵分解(NMF)的思想扩展到对不同类型特征的联合分析中。我们将多视图 NMF 转换为单个优化问题的凸组合,并在这种情况下对 NMF 采用众所周知的乘法定点算法。该方法避免了不同类型特征的临时组合,因此忠实于不同描述符的性质。我们的多视图 NMF 公式中的各个优化问题是通过一个公共系数矩阵耦合的。由于这种耦合,所得的基矢量或聚类质心允许从另一类型的描述符(例如图像特征)推断出一种类型的描述符(例如图像标签)。

在初步实验中,我们验证了该方法在图像分割,标签预测和基于标签的图像检索中的适用性。我们的第一个结果表明,多视图聚类可以提供适用于不同抽象级别的图像分析框架,可以通过以多视图方法提供的主要方式组合像素颜色和位置信息来识别图像部分。使用我们的框架可以将颜色直方图和按图像的文本向量等各种信息耦合在一起,我们发现它能够根据可用数据预测丢失的信息。

目前,我们正在进行更广泛的实验,以提供更定量的分析,并将拟议的方法与其他多视图方法(如(内核化)规范成分分析)进行比较。与现有的相关方法相比,我们期望多视图 NMF 的高效实现是可能的。为此,我们目前在模型中采用了凸包 NMF 等技术。我们还将进一步探讨多视图 NMF 与 LDA 的关系,以及它是否为层次化潜在主题模型提供替代方法。最后,我们设想了该方法的进一步应用,例如在高光谱成像领域。

致谢

本文由南京大学软件学院 2020 级硕士生刘子夕翻译转述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值