Multimodal analysis of personality traits on videos of self-presentation and induced behavior 阅读笔记

本文链接：https://blog.csdn.net/qq874455953/article/details/113780224

虽然这篇论文的投的期刊IF不是很高，但仍有一些值得学习和借鉴的地方，2020年的最新多模态情感分析

1.模型结构

1.1 面部特征

特征提取

用OpenFace 提取68个脸部的坐标点，脸部边界（20），眼睛眉毛（22），鼻子（9），嘴巴（20）

在这里插入图片描述

然后对坐标点进行线性的变换，把它规划，去掉旋转角度、平移角度，得到面部的正脸照片。resize到224*224

建模

对生成的连续的人脸照片进行建模，

使用两种模型结构：

ResNeXt网络
CNN-GRU网络

其中CNN是AlexNet,

模型结构如图：

在这里插入图片描述

1.2 面部动作单元以及头部姿势

特征提取

使用OpenFace 提取action units （AU）

18个AU是否出现
17个AU的密度
3个维度的头部旋转角度（俯仰等）
3D gaze direction，使用了左眼和右眼的3D注视方向(产生6个特征值)以及每只眼睛的28个眼睛标志的2D坐标(产生112个特征值)

建模

提取上面的特征，它也是作为一个持续的序列特征，所以作者采用两种网络来进行分别的建模

LSTNet
RCNN

1.3 身体姿态特征

特征提取

使用OpenPose对输入视频进行处理，

跟踪关节(如手腕和肘部)、颈部和面部的25个标记点
以跟踪的标记点的二维坐标作为姿态特征，如在回答问题和观看视频时如何坐和移动。
除了其他视觉形式，这是唯一一种我们不关注脸部的视觉形式，而是关注参与者的身体/姿势。

建模

使用LSTNet建模50维的身体特征，以使其最小化

1.4 声音特征

特征提取

使用pyAudioAnalysis工具提取 34维度特征包括：

MFCC
Chroma vector
energy and entropy related features

建模

使用LSTNet建模34维的身体特征，以使其最小化

1.5 文本特征

用BERT 作为词嵌入
LSTNet进行序列建模

在这里插入图片描述

1.6 Fusion

融合使用3种方式：early fusion，hybrid fusion，late fusion

early fusion：我们把每个模态最后提取的特征进行融合，有两种方式，第1种是直接拼接，第2种是基于attention的融合，
- 对于拼接我们把最后拼接的向量放到MLP中
- 对于基于attention，首先特征过一个MLP 使得模态的特征维度相同。然后将得到的表示输入到attention 层，得到加权特征，然后进行回归
hi表示模态i 得到的特征表示

ai是权重

在这里插入图片描述

具体来说就是每个维度都进行加权

在这里插入图片描述

late fushion

把最后的得分分数平均即可 LSVR.
hybrid fusion

使用CentralNet，具体可看
https://www.researchgate.net/publication/327173175_CentralNet_a_Multilayer_Approach_for_Multimodal_Fusion

2. new dataset

Self-presentation and induced behavior archive for personality analysis

在这里插入图片描述

3. 实验结果

请添加图片描述

好的有点离谱，需要查阅一下

first impression 结果论文

Multi-modal score fusion and decision trees for explainable automatic job candidate screening from video CVS
Multimodal fusion of audio, scene, and face features for first impression estimation.
Deep bimodal regression of apparent personality traits from short video sequences
Bi-modal first impressions recognition using temporally ordered deep audio and stochastic visual features.
Multimodal first impression analysis with deep residual networks
A Personality traits and job candidate screening via analyzing facial videos.
Deep impression: audiovisual deep residual networks for multimodal apparent personality trait recognition
Human-explainable features for job candidate screening prediction.