研究背景
人格特质对个体的行为、偏好和决策过程有重要影响,因此自动化人格识别成为一个重要的研究领域。本文提出了一种新的深度多模态融合方法,用于从多种数据模态(包括文本、音频和视觉输入)预测人格特质。
研究方法
-
模型架构:
-
视觉特征提取:使用预训练模型ViT-B16和VGG16。
-
音频特征提取:使用预训练模型VGGish。
-
文本分析:使用预训练模型GloVe。
-
融合方法:使用早期融合和模型融合技术,结合自注意力和交叉注意力机制。
-
-
数据预处理:
-
视觉数据:从视频中提取场景图像和面部图像,使用MTCNN进行面部检测。
-
音频数据:使用FFmpeg从视频中提取音频,并使用librosa生成波形。
-
文本数据:对文本进行标准预处理,包括去除停用词、分词、词干提取和小写转换。
-
-
特征提取:
-
视觉特征:使用ViT-B16和VGG16提取场景图像和面部图像的空间特征,并使用LSTM层捕捉时间特征。
-
音频特征:使用VGGish提取音频特征,并使用卷积层和LSTM层捕捉时间依赖性。
-
文本特征:使用GloVe将文本转换为词向量,并使用卷积层提取特征。
-
-
融合方法:
-
早期融合(EF):在管道的早期阶段结合来自不同模态的数据,以提高预测准确性。
-
模型融合(MF):通过连接不同模态的特征,并使用密集层网络进行分析。
-
注意力机制:使用自注意力和交叉注意力机制,进一步提高模型的性能。
-
数据集
使用公开的ChaLearn First Impressions V2数据集进行实验。该数据集包含10,000个视频片段,每个片段的中位时长为15秒,分辨率为1280×720像素。视频捕捉了不同年龄、种族、性别和国籍的个体在自我介绍场景中的表现。人格特质标签通过Amazon Mechanical Turk(AMT)进行标注。
实验结果
-
单模态识别:
-
视觉场景特征:平均准确率为91.21%。
-
面部特征:平均准确率为91.19%。
-
音频特征:平均准确率为90.18%。
-
文本特征:平均准确率为88.51%。
-
-
多模态融合:
-
早期融合(EF):平均准确率为91.70%。
-
模型融合(MF):平均准确率为91.60%。
-
自注意力:平均准确率为91.61%。
-
交叉注意力:平均准确率为91.61%。
-
主要贡献
-
提出了一个创新的多模态系统,通过结合视觉、音频和文本数据,显著提高了人格特质识别任务的准确性。
-
通过大量实验验证了该方法在ChaLearn First Impressions V2数据集上的有效性。
-
该系统不仅提高了人格预测的准确性,还提供了对多种人格指标复杂交互的深入理解。
结论
本文提出的深度多模态融合方法在人格特质识别任务中表现出色,具有较高的准确性和可靠性。未来的研究将进一步优化模型,并考虑更多的特征和更复杂的数据集。