《PCENet: Psychological Clues Exploration Network for Multimodal Personality Assessment》

最新推荐文章于 2025-11-26 15:40:52 发布

原创最新推荐文章于 2025-11-26 15:40:52 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #目标检测 #机器学习 #人工智能 #语音识别 #计算机视觉

这篇论文《PCENet: Psychological Clues Exploration Network for Multimodal Personality Assessment》提出了一种新的多模态人格评估方法，通过结合心理学线索来提高评估的准确性。以下是论文的详细总结：

研究背景

人格评估是心理学中的一个基本任务，能够深入洞察人类行为、情感过程和心理健康。随着多媒体社交平台的兴起，如YouTube、Instagram和DouYin，人们越来越多地通过视频分享生活，使得多模态人格评估成为可能。这种评估方法可以为下游应用（如人机交互系统、个性化系统和推荐系统）提供及时和客观的支持。

研究方法

问题形式化

多模态人格评估任务被形式化为一个基于视频的多特质回归问题。给定一个包含视觉、音频和文本流的用户生成视频，目标是根据多模态信号为用户评估五个人格特质（开放性、尽责性、外向性、宜人性和神经质）的强度。

总体架构

提出的PCENet模型包括两个主要模块：多模态层次解耦编码器和基于特质的解码器。多模态层次解耦编码器用于分解模态并获得稳定和可变的表示，而基于特质的解码器则应用特质相关性学习来指导模型优化。

单模态提取器

为了建模每个模态内的信息，引入了一维时间卷积来分别丰富视觉、音频和文本特征的序列级上下文。每个模态的语句序列通过一维时间卷积层进行处理，以获得固定维度的特征表示。

多模态层次解耦编码器

多模态层次解耦编码器由初步解耦单元和纯解耦单元组成，以端到端的方式连接，更深入地解耦以减少冗余。初步解耦单元通过投影函数学习每个模态的隐藏稳定表示，然后通过减法操作获得每个模态的可变表示。纯解耦单元进一步映射每个隐藏的稳定表示对，以获得更纯净的表示，并通过减去原始模态表示来获得可变表示。

基于特质的解码器

基于特质的解码器使用基于Transformer的架构，通过自注意力机制和模态到特质的注意力机制生成特质特定的表示。解码器的输出通过线性层和Sigmoid层用于评估人格特质。

实验

数据集

使用First Impression V2数据集，包含10,000个YouTube用户的10,000个对镜视频片段，每个视频平均持续15秒，每秒30帧。所有视频都包含文本形式的转录，并由外部人类标注者使用Amazon Mechanical Turk分配Big-Five人格特质分数。

基线方法

将PCENet与多个基线方法进行比较，包括单模态方法（DAN+、DFNN）、双模态方法（DRN、DBN、CLVM、MAN-CBMSE）和三模态方法（MPPS、MISA、TMIN、CR-Net）。

实现细节

使用OpenFace提取与面部表情相关的75维特征，使用BERT-base-uncased预训练模型将视频转录转换为768维向量，使用预训练的VGGish将音频片段转换为128维张量。训练阶段使用Adam优化器，批量大小为16，初始学习率在{1e-2, 1e-3, 1e-4}中搜索。

评估指标

使用皮尔逊相关系数（PCC）和平均准确率（ACC）来评估所有基线方法的性能。

结果

性能比较

PCENet在所有基线方法中表现最佳，平均ACC和PCC分别达到0.9225和0.65。特别是在评估神经质和宜人性特质时，PCENet的表现显著优于其他方法。

消融研究

通过移除视觉、音频和文本模态，分别探索了三模态PCENet的性能。结果表明，三模态组合提供了最佳性能，移除视觉模态导致性能显著下降，说明面部信号在人格评估中起着重要作用。此外，移除多模态层次解耦编码器或基于特质的解码器也会导致性能下降，证明了这些组件的有效性。

多模态层次解耦编码器的效果

通过跟踪训练和验证过程中的解耦损失，发现模态稳定损失和模态可变损失分别呈现出不同的变化趋势。模态稳定损失几乎单调下降并平稳收敛，而模态可变损失在经过一段时间的波动后逐渐稳定。这表明设计的多模态层次解耦编码器确实学习到了所需的表示。

结论

论文提出了一种新的心理线索探索网络模型（PCENet），用于多模态人格评估。PCENet通过学习内在的心理线索来优化人格评估任务中的模型。实验结果表明，PCENet在First Impression V2数据集上的表现优于现有方法，证明了其有效性。未来的工作可以进一步探索这些组件的改进，并将模型应用于实际场景中。