这篇文章的创新点在于他的依据。网络多多少少都要找一些理由说明我们为什么比以前好使了一丢丢。
涉及两个依据:MMD分布距离测量+memory attention mechanism.
MMD测量两个分布的距离,分布来自于符合两个不同分布的样本点集,所以可以用来人脸识别。一个样本点集包含了这个人不同表情,不同角度的照片,或者干脆是是视频截取的很多帧。这些照片的共同点就是他是张三的照片,符合张三的分布。
作者想让类间距离打,类内距离小。也就是说,张三20天前的照片,机器一看很容易就能确定是现在的张三了,因为测试照片集的分布与张三照片集的分布距离很近,类内距离小。类见距离大:李四的照片集,机器一拿过来,就知道不是张三,因为两个分部离得太远了。
离得进MMD小。一样为零,离得远,MMD数值大。作者把这个算到损失函数中,看下面的输入。三个照片集对吧。
作者小改了下,照片集合最后提取出来的是特征集合,我不能不加选择的加一块娶个平均就当照片集合的feature然后算距离,算损失,梯度下降调整参数。他得想个招,能评价出张三哪张照片拍的特别丑清楚丑清楚的,不能呼了一层滤镜,整得他妈都不认识他,这样的照片提取出来的特征,那也不具有可信度啊。所以他还得在网络中加个权重。就是图中的attention。
然后坐折瞧了瞧自己的网络,觉得我这个先有feature,然后再训练权重的样式的模型符合memory attention mechanism,我可以把特征当作先验知识,假装我得到了完美无缺的特征提取,辅助我训练权重,待会我再假装我得到了完美无缺的权重,去训练我产出特征的网络,达到辅助我训练特征的目的。