这篇论文《PCENet: Psychological Clues Exploration Network for Multimodal Personality Assessment》提出了一种新的多模态人格评估方法,通过结合心理学线索来提高评估的准确性。以下是论文的详细总结:
研究背景
人格评估是心理学中的一个基本任务,能够深入洞察人类行为、情感过程和心理健康。随着多媒体社交平台的兴起,如YouTube、Instagram和DouYin,人们越来越多地通过视频分享生活,使得多模态人格评估成为可能。这种评估方法可以为下游应用(如人机交互系统、个性化系统和推荐系统)提供及时和客观的支持。
研究方法
问题形式化
多模态人格评估任务被形式化为一个基于视频的多特质回归问题。给定一个包含视觉、音频和文本流的用户生成视频,目标是根据多模态信号为用户评估五个人格特质(开放性、尽责性、外向性、宜人性和神经质)的强度。
总体架构
提出的PCENet模型包括两个主要模块:多模态层次解耦编码器和基于特质的解码器。多模态层次解耦编码器用于分解模态并获得稳定和可变的表示,而基于特质的解码器则应用特质相关性学习来指导模型优化。
单模态提取器
为了建模每个模态内的信息,引入了一维时间卷积来分别丰富视觉、音频和文本特征的序列级上下文。每个模态的语句序列通过一维时间卷积层进行处理,以获得固定维度的特征表示。
多模态层次解耦编码器
多模态层次解耦编码器由初步解耦单元和纯解耦单元组成,以端到端的方式连接,更深入地解耦以减少冗余。初步解耦单元通过投影函数学习每个模态的隐藏稳定表示,然后通过减法操作获得每个模态的可变表示。纯解耦单元进一步映射每个隐藏的稳定表示对,以获得更纯净的表示,并通过减去原始模态表示来获得可变表示。
基于特质的解码器
基于特质的解码器使用基于Transformer的架构,通过自注意力机制和模态到特质的注意力机制生成特质特定的表示。解码器的输出通过线性层和Sigmoid层用于评估人格特质。
实验
数据集
使用First Impression V2数据集,包含10,000个YouTube用户的10,000个对镜视频片段,每个视频平均持续15秒,每秒30帧。所有视频都包含文本形式的转录,并由外部人类标注者使用Amazon Mechanical Turk分配Big-Five人格特质分数。
基线方法
将PCENet与多个基线方法进行比较,包括单模态方法(DAN+、DFNN)、双模态方法(DRN、DBN、CLVM、MAN-CBMSE)和三模态方法(MPPS、MISA、TMIN、CR-Net)。
实现细节
使用OpenFace提取与面部表情相关的75维特征,使用BERT-base-uncased预训练模型将视频转录转换为768维向量,使用预训练的VGGish将音频片段转换为128维张量。训练阶段使用Adam优化器,批量大小为16,初始学习率在{1e-2, 1e-3, 1e-4}中搜索。
评估指标
使用皮尔逊相关系数(PCC)和平均准确率(ACC)来评估所有基线方法的性能。
结果
性能比较
PCENet在所有基线方法中表现最佳,平均ACC和PCC分别达到0.9225和0.65。特别是在评估神经质和宜人性特质时,PCENet的表现显著优于其他方法。
消融研究
通过移除视觉、音频和文本模态,分别探索了三模态PCENet的性能。结果表明,三模态组合提供了最佳性能,移除视觉模态导致性能显著下降,说明面部信号在人格评估中起着重要作用。此外,移除多模态层次解耦编码器或基于特质的解码器也会导致性能下降,证明了这些组件的有效性。
多模态层次解耦编码器的效果
通过跟踪训练和验证过程中的解耦损失,发现模态稳定损失和模态可变损失分别呈现出不同的变化趋势。模态稳定损失几乎单调下降并平稳收敛,而模态可变损失在经过一段时间的波动后逐渐稳定。这表明设计的多模态层次解耦编码器确实学习到了所需的表示。
结论
论文提出了一种新的心理线索探索网络模型(PCENet),用于多模态人格评估。PCENet通过学习内在的心理线索来优化人格评估任务中的模型。实验结果表明,PCENet在First Impression V2数据集上的表现优于现有方法,证明了其有效性。未来的工作可以进一步探索这些组件的改进,并将模型应用于实际场景中。
1130

被折叠的 条评论
为什么被折叠?



