预备知识
1、单视图
2、多视图
3、多视图半监督
4、语义
5、语义一致性
6、视觉一致性
问题与答案
本文方法
论文内容
1、多视图数据预处理
本文中,视图是指由各种基于最先进的深度卷积神经网络方法生成的视觉表示。
比如共有5个视图(view1~5),原始数据经过任意神经网络模型的处理,得到各自的视图表示(𝑥_𝑛^𝑣,𝑦_𝑛) ,𝑛 = 1…𝑁,𝑁是图像的数量, 𝑥_𝑛^𝑣,是第𝑁幅图像在第𝑣视图中的视觉表示, 𝑦_𝑛是第𝑁幅图像的标签。
5个视图(view1~5)后面,各自接续一个分类器,得到各自视图的预测结果。
2、线性多视图组合
为了区别V个视图的信息,线性组合𝑓^𝑣 (∗)的输出,𝑣 = 1,…,𝑉,通过𝑦_𝑛来预测图像的类别𝑥_𝑛^𝑣如下:
3、视觉一致性loss
通过最小化预测得到的结果与真实结果的误差来优化调整相似度链接𝛼^𝑣
4、视图一致性loss
视觉相似图像的预测值在每个视图中应该是相似的。因此,文章将单个视图中的视觉一致性约束添加到上式(红色) :
其中β1是单个视图中视觉一致性约束的加权参数。参数σ是控制视图一致性影响的缩放参数。Mv是第v个视图附近图像的数量。使用欧几里德距离选择邻居。
5、语义一致性loss
当使用多视图组合时,视觉上邻近图像的预测值(语义)应该是相似的。我们同样给上式添加了语义一致性约束:
其中β2是语义一致性约束的加权参数。
6、相似度一致性loss
附近图像的视图相似度也要结合。文章在等式中添加了视图一致性约束。如下:
其中α=[α1;…;αN]。β3是视图一致性的加权参数。
7、分类的视觉、语义和视图一致性
最后,为线性组合参数增加了一个正则项,相应地总体目标函数可以写成:
8、最优化
联合优化α和F()是非常困难的。因此采用交替方向乘子法算法,在保持F()/α不变的情况下,优化α/F(*)。
然而,对所有N幅图像进行联合优化仍然非常困难。文章通过保持其他组合参数不变来简化和迭代优化每个图像。这样,可以优化如下:
这个问题可以在每个视图上解决,同时保持其他视图的组合参数不变。这样,第二项、第四项和第五项的一部分是固定的,对优化没有影响。
求偏导得到:
同理,这个问题也可以在每个视图的分类器上迭代优化,公式略。
在本文中,使用sigmoid分类器作为Fv(*):
参数𝛾_𝑣可通过以下方式进行优化:
一旦学习了最佳α和F(*),我们就可以相应地预测图像的类别。
9、图像类别预测
对于每幅测试图像,我们学习组合参数,用上式和固定的F来预测其类别(∗)。 假设𝑥_𝑡^𝑣为第v视图的一个测试图像的表示,𝑣=1,…,𝑉;多视图组合参数可以通过求解下式来得到:
其中Mv是𝑥_𝑡^𝑣的附近图像数。然后可以将图像类𝑦_𝑡预测为:
10、算法流程
优缺点
1、优点
1、联合使用单视图中的视觉一致性和多视图中的语义一致性和视图一致性进行多视图分类,提供分类精度。
2、视觉相似性对于类间差异较大的图像不易分类,本文使用结合的方式缓解这个问题。
3、扩展性强,交互性好,该方法更具通用性和通用性,可以与各种预学习分类器相结合,可以与各种神经网络相结合使用。
2、缺点
1、由于牵扯视图与视图之间的近邻关系,以及整体样本与整体样本的近邻性,导致计算量庞大,更新迭代速度慢。
2、语义一致性是通过多视图组合来保证相邻图像具有相同的语义来实现的,没有明确的语义定义,仅仅是通过其他方式的组合实现该定义,缺少一定的先验性。