Bi-modal first impressions recognition using temporally ordered deep audio and stochastic 阅读笔记

最新推荐文章于 2022-02-26 21:13:20 发布

B站：阿里武

最新推荐文章于 2022-02-26 21:13:20 发布

阅读量386

点赞数

分类专栏：个性分析多模态文章标签：多模态个性分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq874455953/article/details/114021888

版权

多模态同时被 2 个专栏收录

21 篇文章 35 订阅

订阅专栏

15 篇文章 4 订阅

订阅专栏

Bi-modal first impressions recognition using temporally ordered deep audio and stochastic visual features.

本文提出了两种 双模态深度神经网络架构，它们具有两个分支，一个分支用于提取音频特征，另一个分支用于提取视觉特征。在预处理原始视频数据之后，会生成模型的音频和视觉分支的输入。从两个分支提取的特征将进行融合，整个网络则是端到端训练的。

数据预处理

一个视频被分成多个不重叠的部分（子视频），对于每个部分提取下面的特征，此文章设置：一个视频分成6个部分：

声音：

使用pyAudioAnalysis，提取68个特征，包括以下：

在这里插入图片描述

视觉特征：

用OpenFace 识别人脸，进行人脸对齐

总流程如下：

在这里插入图片描述

模型结构

模型结构如图

在这里插入图片描述

一共有两种模型，一种基于CNN 的，一种基于LSTM的。提取局部和时序的信息

Volumetric (3D) convolution model

CNN 这一块主要是视觉图片使用CNN来进行提取，其他地方基本使用Linear，

为什么是三维卷积，因为图片是序列化的数据（6 * 112 * 112 * 3）是4维度所以需要用三维卷积，而一般图片三维度只要用二维卷积即可

LSTM based model

视觉部分使用CNN，但是，会先将声音和视觉的特征先拼接起来，然后放到LSTM中，

LSTM 主要学习子视频之间的时序关系

模型训练

大概一个子视频有75帧，有 6个子视频，那么每个视频随机拿一帧的话一共有 75^6 的组合可能

根据经验，作者发现仅对数百种组合（通常为〜500）进行训练就足以使模型对整个数据集进行泛化。

在每个epoch，随机选择将为每个视频产生新的输入组合。这种随机的训练方式会在每个epoch产生新的样本，并有效地“正则化”学习，从而增加了模型的通用性。

我们从可能的总组合中选择仅使用一个随机子集（10个组合），并使用10个评估的平均值作为人格特质识别结果。验证和测试结果表明，该模型和评估方法的性能明显优于其他模型

结果

在这里插入图片描述

模型准确率还可以

思考

随机训练和随机测试很关键
分成六个部分进行LSTM和3DCNN

B站：阿里武

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。