Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记

Multimodal First Impression Analysis with Deep Residual Networks

前言

这篇文章也算是一个老文章了,不过效果也非常好,准确率也在前三名之内,有必要读读它的模型结构以及特征方法,特别是他对于声音提取的方面好像有一些小创新,虽然是两个模块,但也有借鉴意义,

模型结构

以下是整个模型的一个流程图,通过,训练集进行训练得到一个模型,然后把被测试者的视频输入到模型中,得到它的个性分数以及是否是一个好的面试者(通过还是不通过)

在这里插入图片描述

Audiovisual 模型

参考了之前使用的resnet , 但是声音和视觉由于其维度不同,其结构也有一些不同,主要的区别就是,步长, 卷积核的问题

在这里插入图片描述

其训练过程如下:

  • 从视频中读取声音和视觉数据
  • 声音随机采样50176个样本,约为3.316秒, 放到声音提取模型中
  • 视觉 随机采样 224*224的图片, 放到视觉提取模型中
  • 最后把两个模态得到的特征拼接,进行拼接,最后放入全连接进行预测

验证过程如下:

  • 从视频中读取声音和视觉数据
  • 声音全部放到声音提取模型中
  • 视觉 随机采样一帧
  • 最后把两个模态得到的特征拼接,进行拼接,最后放入全连接进行预测

因为两个模态的特征提取模块的 倒数第二层后面都是全局平均池, 所以不用担心输入不同的问题

当然,为了消融实验:

作者还使用了单独的音频模型和单独的视觉模型。 这些模型由视听模型的相应流组成,但是后面是单独的连接层。 他们也分别进行了评估

Language 模型

或者使用两个模型来进行,的预测,一个是词袋模型,另外一个是skip-thought vectors

每一个句子都被编码成一个固定的特征向量

在这里插入图片描述

这每一个特征向量都用一个线性回归来进行预测

实验&训练

个性之间的相关性

在这里插入图片描述

平均脸

作者这里用了可视化的处理,把5个个性的高人群和低人群的平均脸进行了输出,这里非常有趣

在这里插入图片描述

结果

实验结果:

在这里插入图片描述

最后文章还给了一一种可解释性的方法来解释为什么不同的个性使得他录取还是不录取,例如由于这个人的开朗性不是很高,所以他将不会被录取,感兴趣的可以自己读一下好,

总结

  • 声音的提取模态,有点东西可以看一下
  • 准确率还挺高的
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值