Bi-modal first impressions recognition using temporally ordered deep audio and stochastic 阅读笔记

Bi-modal first impressions recognition using temporally ordered deep audio and stochastic visual features.

本文提出了两种 双模态深度神经网络架构,它们具有两个分支,一个分支用于提取音频特征,另一个分支用于提取视觉特征。 在预处理原始视频数据之后,会生成模型的音频和视觉分支的输入。从两个分支提取的特征将进行融合,整个网络则是端到端训练的。

数据预处理

一个视频被分成多个不重叠的部分(子视频), 对于每个部分提取下面的特征, 此文章设置: 一个视频分成6个部分:

声音:

  • 使用pyAudioAnalysis,提取68个特征, 包括以下:

在这里插入图片描述

视觉特征:

  • 用OpenFace 识别人脸, 进行人脸对齐

总流程如下:

在这里插入图片描述

模型结构

模型结构如图

在这里插入图片描述

一共有两种模型, 一种基于CNN 的, 一种基于LSTM的。提取局部和时序的信息

Volumetric (3D) convolution model

CNN 这一块 主要是视觉图片使用CNN来进行提取, 其他地方基本使用Linear,

为什么是三维卷积, 因为图片是序列化的数据 (6 * 112 * 112 * 3)是4维度 所以需要用三维卷积, 而一般图片三维度只要用二维卷积即可

LSTM based model

视觉部分使用CNN, 但是, 会先将声音和视觉的特征先拼接起来, 然后放到LSTM中,

LSTM 主要学习 子视频之间的时序关系

模型训练

大概一个 子视频有75帧, 有 6个子视频, 那么每个视频随机拿一帧的话一共有 75^6 的组合可能

根据经验,作者发现仅对数百种组合(通常为〜500)进行训练就足以使模型对整个数据集进行泛化。

在每个epoch,随机选择将为每个视频产生新的输入组合。 这种随机的训练方式会在每个epoch产生新的样本,并有效地“正则化”学习,从而增加了模型的通用性。

我们从可能的总组合中选择仅使用一个随机子集(10个组合),并使用10个评估的平均值作为人格特质识别结果。 验证和测试结果表明,该模型和评估方法的性能明显优于其他模型

结果

在这里插入图片描述

模型准确率还可以

思考

  • 随机训练和 随机测试很关键

  • 分成六个部分 进行LSTM和3DCNN

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值