1. 摘要翻译
我们提出了一种高效的算法,来利用多模态的知识训练动态手势识别任务的单模态三维卷积神经网络。和当前许多优秀算法不同的是,我们并不显式地进行多模态信息融合。而是提供了另一种不同框架,其中我们嵌入多模态的知识到单个网络中。由此,每一个单模态网络都可以获得更好的运行效果。特别的,我们为每个可用的模态提供单独的网络结构,并强制他们协作,以发展拥有公共语义和更好表示方法的网络。我们将要介绍一种“时空一致性”损失函数来一致化不同网络中特征的内容。另外,我们将会用我们提出的“焦点正则化参数”来正则化我们的损失函数,以此避免负信息的传递。实验结果表明,我们的框架提高了单模态的识别速度和准确率,并且在许多动态手势识别数据集上取得了相当好的结果。
Qustion1:
这里的单模态,多模态是否指的是数学上的“单峰性”,“多峰性”?何为多模态的知识?
Answer1:
用多种设备同时检测一个手势,如RGB相机,深度传感器,光线追踪设备,所获得的同一个动作的不同信息,成为多模态信息。
相反的,如果只根据其中一种进行模式识别,那么就是单模态信息。
2. 文章研究的现状
目前动态手势识别都是通过多模态训练,多模态识别;或者单模态训练,单模态识别。前者设备昂贵,训练测试的经济花费高。后者识别率低下。当前已经有一些文章尝试通过显式的特征融合多模态特征,放到单模态下测试。
3. 这篇文章解决了什么问题
本文使用了一种新方法实现多模态训练,单模态测试的思路。提高了识别的速度和准确率。
4. 创新点
- 提出了一种新的框架结构来实现多模态训练,单模态测试的动态手势识别思路。
- 介绍了“时空语义一致性”损失函数来共享单模态网络的训练结果
- 使用了“焦点正则化参数”来避免信息的负传递
5. 相比其他方法的优势
6. 算法框架与网络结构
在这篇文章中,每一个模态都有一个训练好的3D-CNN。在训练过程中,由于每个网络都经过基本的训练,我们的目标是通过交换不同模态的知识信息提高学习过程。这个学习过程类似于标签分类之外的一个额外的监督。
我们通过对齐输入图片提供的深度表示的语义来共享网络的知识,我们通过选定一个深入的网络层,强制它们在这个层次交换公共相关信息来实现之前的对齐操作。这是通过最小化训练阶段相关矩阵的距离来实现的。
另外,我们通过一个自适应函数来正则化损失函数,以保证损失函数只将高识别度区域的知识传送给低识别度的区域
6.1 时空语义一致性
6.2 焦点正则化参数(避免负信息传递)
6.3 模态网络全貌
综合前面的知识,M个模态中的第m个定义如下:
其中λ是一个正的正则化参数,对于不同n,ρm,n是不同的。而n=m的情况下,后面的损失函数差为0,因为ρm,n为0
如图展示了不同网络之间相互影响的基本过程
经过相互影响的网络,使得任意一种模态的输入都可以获得不错的结果。但值得一提的是,作者提出的模型也支持决策阶段的特征融合(个人理解,综合各个模态的输出给出最终输出)。作者表明,他在单模态和多模态融合的测试中都取得了良好的结果。
7. 实验采用的指标
7.1 数据集
VIVA hand gestures dataset
EgoGesture dataset
NVGestures dataset
7.2 比较对象
I3D
C3D
在不同模态数目下的比较
7.3 评价指标
识别准确率
8. 缺点
没有提供识别速度的数据