Bi-modal first impressions recognition using temporally ordered deep audio and stochastic visual features.
本文提出了两种 双模态深度神经网络架构,它们具有两个分支,一个分支用于提取音频特征,另一个分支用于提取视觉特征。 在预处理原始视频数据之后,会生成模型的音频和视觉分支的输入。从两个分支提取的特征将进行融合,整个网络则是端到端训练的。
数据预处理
一个视频被分成多个不重叠的部分(子视频), 对于每个部分提取下面的特征, 此文章设置: 一个视频分成6个部分:
声音:
- 使用pyAudioAnalysis,提取68个特征, 包括以下:
视觉特征:
- 用OpenFace 识别人脸, 进行人脸对齐
总流程如下:
模型结构
模型结构如图
一共有两种模型, 一种基于CNN 的, 一种基于LSTM的。提取局部和时序的信息
Volumetric (3D) convolution model
CNN 这一块 主要是视觉图片使用CNN来进行提取, 其他地方基本使用Linear,
为什么是三维卷积, 因为图片是序列化的数据 (6 * 112 * 112 * 3)是4维度 所以需要用三维卷积, 而一般图片三维度只要用二维卷积即可
LSTM based model
视觉部分使用CNN, 但是, 会先将声音和视觉的特征先拼接起来, 然后放到LSTM中,
LSTM 主要学习 子视频之间的时序关系
模型训练
大概一个 子视频有75帧, 有 6个子视频, 那么每个视频随机拿一帧的话一共有 75^6 的组合可能
根据经验,作者发现仅对数百种组合(通常为〜500)进行训练就足以使模型对整个数据集进行泛化。
在每个epoch,随机选择将为每个视频产生新的输入组合。 这种随机的训练方式会在每个epoch产生新的样本,并有效地“正则化”学习,从而增加了模型的通用性。
我们从可能的总组合中选择仅使用一个随机子集(10个组合),并使用10个评估的平均值作为人格特质识别结果。 验证和测试结果表明,该模型和评估方法的性能明显优于其他模型
结果
模型准确率还可以
思考
-
随机训练和 随机测试很关键
-
分成六个部分 进行LSTM和3DCNN