计算机视觉论文笔记四：Attention-Set based Metric Learning for Video Face Recognition

最新推荐文章于 2021-09-14 16:12:41 发布

TinaO-O

最新推荐文章于 2021-09-14 16:12:41 发布

阅读量990

点赞数

分类专栏：人工智能深度学习计算机视觉神经网络人工智能论文阅读

本文链接：https://blog.csdn.net/u013249853/article/details/80185826

版权

本文介绍了使用MMD分布距离和记忆注意力机制进行视频人脸识别的方法。通过最小化类内距离并最大化类间距离，网络能准确识别不同表情、角度的同一人照片。同时，网络通过全局内容和集合感知的权重学习，提高特征的可靠性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇文章的创新点在于他的依据。网络多多少少都要找一些理由说明我们为什么比以前好使了一丢丢。

涉及两个依据：MMD分布距离测量+memory attention mechanism.

MMD测量两个分布的距离，分布来自于符合两个不同分布的样本点集，所以可以用来人脸识别。一个样本点集包含了这个人不同表情，不同角度的照片，或者干脆是是视频截取的很多帧。这些照片的共同点就是他是张三的照片，符合张三的分布。

作者想让类间距离打，类内距离小。也就是说，张三20天前的照片，机器一看很容易就能确定是现在的张三了，因为测试照片集的分布与张三照片集的分布距离很近，类内距离小。类见距离大：李四的照片集，机器一拿过来，就知道不是张三，因为两个分部离得太远了。

离得进MMD小。一样为零，离得远，MMD数值大。作者把这个算到损失函数中，看下面的输入。三个照片集对吧。

作者小改了下，照片集合最后提取出来的是特征集合，我不能不加选择的加一块娶个平均就当照片集合的feature然后算距离，算损失，梯度下降调整参数。他得想个招，能评价出张三哪张照片拍的特别丑清楚丑清楚的，不能呼了一层滤镜，整得他妈都不认识他，这样的照片提取出来的特征，那也不具有可信度啊。所以他还得在网络中加个权重。就是图中的attention。

然后坐折瞧了瞧自己的网络，觉得我这个先有feature，然后再训练权重的样式的模型符合memory attention mechanism，我可以把特征当作先验知识，假装我得到了完美无缺的特征提取，辅助我训练权重，待会我再假装我得到了完美无缺的权重，去训练我产出特征的网络，达到辅助我训练特征的目的。

最低0.47元/天解锁文章