1. 总揽
这篇文章是2017年的IEEE的会议论文,这篇论文的目的是在于减少候选者的选择时间,在招聘工作这种情形下,它的方法是通过基于视觉,听觉以及文本的三个方面的线索,用于去选择一个好的工作候选人,对于每一个方面的特征提取,使用了深度学习的算法,最后结果显示这个实验结果相较于目前的,结果有着非常好的表现。
这篇文章的关键点在于三模态 、个性自动析, 下面将介绍三个模态分别使用的是怎样的方法进行特征提取以及多特征融合是怎样处理的。
2. 方法
提取的流程图如下:
2.1 声音特征提取
作者认为,情感分析和个性分析有一定的相似性,体现的情感
一般也显示这个性的特点,因此他参考在进行声音的情感分析时,所使用的提取的特征。
我们提取出下列的特征:
- Mel Frequency Cepstral Coefficients 特征具体可以看到https://blog.csdn.net/yunnangf/article/details/78965446
- zero crossing rate
- speaking rate
- spectral energy distribution features 等
2.2 视频特征提取
作者认为一个人的个性特点在视频中体现的地方主要是对这个人的第一印象,因此他将重点放在如何去提取视频中的人的第一印象的特征
对于面部的特征提取我们使用Open Face,它能够提取大量的面部特征,每一帧可以提取到416个特征,这些特征集既包括二维的面部素点的坐标,三维的面部像素坐标,同时他可以提取一些面部动作单元AU,以捕获动态的变化,
其中AU在之前的使用中发现能够有效的提取情感特征,而与声音特征提取一样,我们认为情感方向也代表着个性,所以我们只提取AU特征,
以下就是AU特征的描述:
作者对于整个视频也不是完全的去考虑到计算机资源较小,每个视频使用簇聚集算法选取5个关键帧,用于进行提取。
2.3 文字特征提取
使用 SentiWordNet 特征集,这个特征题包括一些单词所对应的情感集中,例如情感为积极和消极的权重,我们通过把文本进行分词,然后对每个单词去查询有没有对应的权重。我们得到权重的最小值,最大值,平均值以及和, 积极情感和消极情感各有4个。最终每一个样本得出8个特征。
2.4 特征融合
对于特征融合的话,使用多层神经感知网络,每一个模态都得出对应的结果,然后每一个模态的结果乘以对应的权重算出总结果,其中经过研究调查认为,文本占0.07,语音占0.35,视频占0.55。
3. 结论
- 我们可以发现多模态融合的结果优于单模态的结果。
4. 总结
- 对于之前的三四篇多模态的个性分析,它的流程基本上都是先从单一模块得出特征
- 然后再从这多个模态得到的特征中融合一个大特征,最终进行分类预测,或者是每一个模态都会预测出对应的个性结果,然后将预测出的结果再进行进一步的提取处理,得到最后的预测结果。
- 对于文本的提取的话,没有使用深度学习的方法较为简单,使用的是一个相当于预训练的一个模型,它记录每一个单词所对应的情感权重,主要是用于做情感分析,但是作者认为情感和个性的表达有一定关系,所以他就用这些个性特点代替情感特点来进行分析。