这篇文章提出了FaceNet系统,学习从人脸到欧式空间的映射,在欧氏空间中判断两幅图片的相似性。可以用来人脸验证、人脸识别以及聚类。 人脸验证:两个嵌入之间距离阈值化问题 人脸识别:k-NN分类问题 聚类:相同身份的人的图像聚成一类,k-means聚类、凝聚聚类等。 这篇文章的模型架构如下图所示,主要是端到端的网络实现。 其中,深度网络主要有两种不同的构造。 结构1:多重交错的卷积层、非线性激活、局部响应标准化、最大池化等。 结构2:Inception model 主要用卷积层和池化层混合。 所使用的损失函数:Triplet loss 三元组损失函数是最大化负样本和anchor之间的距离,最小化正样本和anchor之间的距离。 挑选hard examples: hard positive:使用每个mini-batch中的所有的anchor-positive样本对。 hard negative:使用来挑选hard负样本,称为semi-hard,因为这些样本同时能够比正样本离anchor远,但距离的平方又能够接近anchor和正样本之间的距离。