Multimodal analysis of personality traits on videos of self-presentation and induced behavior 阅读笔记

虽然这篇论文的投的期刊IF不是很高,但仍有一些值得学习和借鉴的地方,2020年的最新多模态情感分析

1.模型结构

1.1 面部特征

特征提取

用OpenFace 提取68个脸部的坐标点,脸部边界(20),眼睛眉毛(22),鼻子(9),嘴巴(20)

在这里插入图片描述

然后对坐标点进行线性的变换,把它规划,去掉旋转角度、平移角度,得到面部的正脸照片。resize到224*224

建模

对生成的连续的人脸照片进行建模,

使用两种模型结构:

  • ResNeXt网络

  • CNN-GRU网络

    其中CNN是AlexNet,

    模型结构如图:

在这里插入图片描述

1.2 面部动作单元以及头部姿势

特征提取

使用OpenFace 提取action units (AU)

  • 18个AU是否出现
  • 17个AU的密度
  • 3个维度的头部旋转角度(俯仰等)
  • 3D gaze direction, 使用了左眼和右眼的3D注视方向(产生6个特征值)以及每只眼睛的28个眼睛标志的2D坐标(产生112个特征值)

建模

提取上面的特征,它也是作为一个持续的序列特征,所以作者采用两种网络来进行分别的建模

  • LSTNet
  • RCNN

1.3 身体姿态特征

特征提取

使用OpenPose对输入视频进行处理,

  • 跟踪关节(如手腕和肘部)、颈部和面部的25个标记点
  • 以跟踪的标记点的二维坐标作为姿态特征,如在回答问题和观看视频时如何坐和移动。
  • 除了其他视觉形式,这是唯一一种我们不关注脸部的视觉形式,而是关注参与者的身体/姿势。

建模

  • 使用LSTNet建模50维的身体特征,以使其最小化

1.4 声音特征

特征提取

使用pyAudioAnalysis工具提取 34维度特征 包括:

  • MFCC
  • Chroma vector
  • energy and entropy related features

建模

  • 使用LSTNet建模34维的身体特征,以使其最小化

1.5 文本特征

  • 用BERT 作为词嵌入
  • LSTNet进行序列建模

在这里插入图片描述

1.6 Fusion

融合使用3种方式:early fusion,hybrid fusion,late fusion

  • early fusion:我们把每个模态最后提取的特征进行融合,有两种方式,第1种是直接拼接,第2种是基于attention的融合,

    • 对于拼接我们把最后拼接的向量放到MLP中
    • 对于基于attention, 首先特征过一个MLP 使得模态的特征维度相同。然后将得到的表示输入到attention 层, 得到加权特征 ,然后进行回归

    hi表示 模态i 得到的特征表示

    ai是权重

在这里插入图片描述

​具体来说就是每个维度都进行加权

在这里插入图片描述

  • late fushion

    把最后的得分分数平均即可 LSVR.

  • hybrid fusion

    使用CentralNet, 具体可看
    https://www.researchgate.net/publication/327173175_CentralNet_a_Multilayer_Approach_for_Multimodal_Fusion

2. new dataset

Self-presentation and induced behavior archive for personality analysis

在这里插入图片描述

3. 实验结果

请添加图片描述

请添加图片描述

好的有点离谱, 需要查阅一下

first impression 结果论文

  • Multi-modal score fusion and decision trees for explainable automatic job candidate screening from video CVS

  • Multimodal fusion of audio, scene, and face features for first impression estimation.

  • Deep bimodal regression of apparent personality traits from short video sequences

  • Bi-modal first impressions recognition using temporally ordered deep audio and stochastic visual features.

  • Multimodal first impression analysis with deep residual networks

  • A Personality traits and job candidate screening via analyzing facial videos.

  • Deep impression: audiovisual deep residual networks for multimodal apparent personality trait recognition

  • Human-explainable features for job candidate screening prediction.

总结

  • 脸部的这个效果挺不错 感觉后面可以尝试一下

  • 这篇文章的优点我认为在于首先它的特征提取,非常的好,特征提取的非常的多,包括了5个方面的特征,例如脸部特征,身体自带特征,视觉特征以及声音和文本特征,

  • 而它的融合的话,则使用的就是一些比较简单的方法,包括了三种融合方式

  • 文章给了一个新的数据集以及自评估和其他人评估的一个区别

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值