A Compact Embedding for Facial Expression Similarity 阅读笔记

A Compact Embedding for Facial Expression Similarity
文章的主要贡献是提出了一个更贴近人的视觉偏好的简约空间,来描述面部表情。最后,得到一个16维度的特征。文章认为,表情的分布不是完全符合语义特征,For example, smiles can come in many subtle variations, from shy smiles, to nervous smiles, to laughter. Also,not every human-recognizable facial expression has a name.In general, the space of facial expressions can be viewed as a continuous, multi-dimensional space.
文章的主要思想是如果人类认为相对于第三种表情,另外两种表情在视觉上非常像,那么这两个表情在简约空间上的距离就会远远小于他们和第三种表情的距离。为了得到这个空间,作者创建了一个数据集,称为Facial Expression Comparison(FEC) dataset,下载地址:https://ai.google/tools/
datasets/google-facial-expression/
之后作者证明了这个16维度的表情空间可以使用深度网络得到,利用triplet loss.利用这个网络在验证集上得到了81.8%的正确率,而人类的平均值是87.5%,可以说是非常接近了。
1, Facial expression comparison dataset
作者自建的数据集,使用人类评价图片表情的是否属于一类,因为标签并不能说明同一类表情图片的相似程度,如下图 ,经常会出现分错的情况,总之这个数据集就是被早出来了。
在这里插入图片描述
数据集里的每一样本,包含三张图片和一个标签,L={1,2,3},1代表相比于图片1,2,3两张图片看起来更像,以此类推。数据集并没有指定anchor,但是提供了两个注释,I 2 is closer to I 3 than I 1 , and I 3 is closer to I 2 than I 1。下表给出了数据集的triplet的数量和包含的人脸的数量,数据集被分为两部分,90%作为训练,10%作为测试。
在这里插入图片描述
Each triplet in this dataset was annotated by six raters. For a triplet, we say that the raters agree strongly if at least two-thirds of them voted for the maximum-voted label, and agree weakly if there is a unique maximum-voted label and half of the raters voted for it. The number of such triplets for each type are shown in Table 1.Raters agree strongly for about 80% of the triplets suggesting that humans have a well-defined notion of visual expression similarity.
2, Facial expression embedding network
作者认为自己的数据集太小,所以使用预先训练好的FaceNet(参考FaceNet: A unified embedding for face recognition and clustering),use the NN2 version of pre-trained FaceNet up to the inception (4e) block whose output is a 7×7 feature map with 1024 channels。完整具体的网络图如下。
在这里插入图片描述
2.1 triplet loss function
For a triplet (I 1 ,I 2 ,I 3 ) with the most similar pair (I 1 ,I 2 ), the loss function is given by
在这里插入图片描述
后文,作者把在FEC数据集上训练得到的网络称为FECNet.
3,实验
作者选择了在两种数据集上训练的网络AFFNet-CL(参考AffectNet: A database for facial expression, valence, and arousal computing in the wild),FACSNet-CL(参考DISFA: A spontaneous facial action intensity database),分别选取两种网络的最后一层和倒数第二层作为特征代表,
最终结果如下,
在这里插入图片描述
还说明为什么选择16维度作为最后结果,

在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"学习指标来自教师:紧凑网络用于图像嵌入" 最近,研究人员提出了一种新的深度学习方法,通过从教师那里学习图像嵌入的紧凑网络。这种紧凑的网络结构具有很高的学习能力和计算效率,可以在训练过程中捕捉重要的图像特征。 所谓图像嵌入,是指将图像转换成低维度的特征向量。这个向量可以用来比较不同图像之间的相似性,或者作为输入传递给其他机器学习模型进行进一步的分析和处理。传统的图像嵌入方法通常基于手工设计的特征提取器,而这种新的方法则通过学习从教师模型中提取特征来实现。 在这种方法中,研究人员首先使用一个强大的教师模型对大量图像进行训练,以生成高质量的图像嵌入。然后,他们设计一个紧凑的网络结构,使用教师模型生成的嵌入向量作为目标。通过最小化教师模型与紧凑网络之间的距离,紧凑网络逐渐学会生成类似于教师模型的图像嵌入。 这种方法有几个优点。首先,它可以在不需要额外标记的情况下训练紧凑网络,因为教师模型已经提供了高质量的嵌入向量作为目标。其次,紧凑网络结构相对简单,计算效率高,可以轻松应用于大规模图像数据集。此外,通过从教师的知识中学习,紧凑网络可以获得更好的图像嵌入性能。 然而,这种方法也存在一些挑战。首先,选择一个合适的教师模型是关键。教师模型应该具有强大的特征提取能力,并且能够生成高质量的图像嵌入。其次,紧凑网络的结构设计也要考虑到充分利用教师模型的知识,并且要在保持计算效率的同时保持高质量的嵌入生成。 总之,学习从教师那里生成图像嵌入的紧凑网络是一个有前景的研究方向。通过从教师模型中学习,紧凑网络可以获得高质量的图像嵌入,为图像比较、分类和检索等任务提供有用的特征。未来的研究应该集中在提高教师模型的性能、设计更强大的紧凑网络结构,以及将这种方法应用于更广泛的领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值