FaceNet:A Unified Embedding for Face Recognition and Clustering
直接学习从人脸图像到欧几里得空间的映射,其中距离直接对应于面部相似度
Embedding从图片到特征空间的映射(image x into ad-dimensional)文中d=128
生成所有满足公式1的三元组很容易的,但是很多对网络收敛几乎没有帮助,所以关键是选择那些对模型性能提升有帮助的三元组
三元组选择
给定,X-i-a.
在整个训练集计算argmin和argmax是不可行的。
在一个1000人,每人20张照片的情况下,T=1000*20*20*999所以穷举不太现实,只能从中选部分来进行训练,选择那些最难区分的图像对。
Hard positive从20张相似图片中找一张最不相似的,
Hard negative 从20*999张找一个最相似的。
最难分类呢,就是在欧式空间距离最远的那个,但是属于一类,这叫hard positive,另外找Hard negative那就找最近的,这样就解决了。当然在找Hard negative很容易产生局部最优,所以我们要满足:。这叫semi-hard,防止找到他一类里了。
在我们的实验中,我们对训练数据进行采样,以便小批次迭代中每个身份选择大约40张面孔。 另外,添加随机采样的负面人脸。
CNN
本文的CNN结构:
一种是来自M. D. Zeiler and R. Fergus.Visualizing and understanding convolutional networks. CoRR, abs/1311.2901,2013. 2, 4, 6。
结构:
另一种来自:C. Szegedy, W. Liu, Y. Jia, P.Sermanet, S. Reed,D. Anguelov, D. Erhan, V. Vanhoucke,and A. Rabinovich.Goingdeeper with convolutions. CoRR, abs/1409.4842,2014. 2, 4, 5, 6, 9
结构:
训练数据800万个人10~20亿照片,
测试集 100W在训练中没出现过的人脸照片,分布类似,分成5份评估。
还在LFW Youtube FaceDB做verification