三元组损失（Triplet loss）

最新推荐文章于 2025-02-10 15:53:59 发布

双木的木

最新推荐文章于 2025-02-10 15:53:59 发布

阅读量2.1w

点赞数 27

分类专栏：吴恩达深度学习笔记深度学习知识点储备笔记文章标签：网络人脸识别机器学习人工智能深度学习

本文链接：https://blog.csdn.net/csdn_xmj/article/details/117323475

版权

笔记同时被 3 个专栏收录

165 篇文章

订阅专栏

吴恩达深度学习笔记

91 篇文章

订阅专栏

深度学习知识点储备

68 篇文章

订阅专栏

本文介绍了在人脸识别中使用Siamese网络和三元组损失函数进行特征学习的方法。三元组损失函数通过比较 Anchor、Positive 和 Negative 图片间的距离，确保同一个人的图片编码接近，不同人的图片编码远离。训练时选择难例三元组以优化网络，使其能有效区分不同个体。该方法需要训练集中包含多张同个人的图片以形成有效的三元组。预训练模型可用于加速开发，但理解训练过程仍然重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：Coursera吴恩达深度学习课程

在人脸识别中，我们希望学习“输入两张人脸图片，然后输出相似度”的函数d，然后Siamese 网络（Siamese network）实现了这个功能。这篇文章将探讨如何定义实际的目标函数（define an objective function），能够让神经网络学习并训练Siamese网络架构呢？

要想通过学习神经网络的参数来得到优质的人脸图片编码，方法之一就是定义三元组损失函数（triplet loss function），然后应用梯度下降（gradient descent ）。

为了应用三元组损失函数，你需要比较成对的图像。用三元组损失的术语来说，你要做的通常是看一个 Anchor 图片，你想让Anchor图片和Positive图片（Positive意味着是同一个人）的距离很接近。然而，当Anchor图片与Negative图片（Negative意味着是非同一个人）对比时，你会想让他们的距离离得更远一点。这就是为什么叫做三元组损失，它代表你通常会同时看三张图片（Anchor图片、Postive图片和Negative图片），通常把它们简写成A、P、N。

把这些写成公式的话，你想要的是网络的参数或者编码能够满足以下特性：

公式两边分别对应如下距离：

这里的d可以看成距离(distance)函数。现在如果我把方程右边项移到左边，最终就得到：

值得注意的是，上面的表达式有一种情况：把所有东西都学成0，如果f总是输出0，0-0=0，也满足这个方程，但是没有用处。所以为了确保网络对于所有的编码不会总是输出0，也为了确保它不会把所有的编码都设成互相相等的。我们做一些改变，应该是比0还要小，小于一个-alpha值（另一个超参数），即：

按照惯例，一般写成这样：

这个参数也叫做间隔(margin)参数。间隔参数的作用是它拉大了Anchor和Positive 图片对和Anchor与Negative 图片对之间的差距。取下面的这个方框圈起来的方程式，然后定义三元组损失函数。

三元组损失函数的定义基于三张图片，假如三张图片A、P、N，即anchor样本、positive样本和negative样本，其中positive图片和anchor图片是同一个人，但是negative图片和anchor不是同一个人。如上图，为了定义这个损失函数，我们取这个和0的最大值：

这个max函数的作用是只要你能使画绿色下划线部分小于等于0，只要你能达到这个目标，那么这个例子的损失就是0。另一方面，如果绿色下划线部分大于0，则它是最大值，得到一个正的损失值，通过最小化损失函数使得这部分小于或等于0。

这是一个三元组定义的损失，整个网络的成本函数J应该是训练集中这些单个三元组损失的总和（sum）。假如你有一个10000个图片的训练集，里面是1000个不同的人的照片，你要做的就是取这10000个图片，然后生成这样的三元组，然后训练你的学习算法，对这种代价函数用梯度下降，这个代价函数就是定义在你数据集里的这样的三元组图片上。

注意，为了定义三元组的数据集需要成对的A和P，即同一个人的成对的图片，为了训练你的系统你确实需要一个数据集，里面有同一个人的多个照片。如果你只有每个人一张照片，那么根本没法训练这个系统。当然，训练完这个系统之后，你可以应用到你的一次学习问题上，对于你的人脸识别系统，可能你只有想要识别的某个人的一张照片。但对于训练集，你需要确保有同一个人的多个图片，至少是你训练集里的一部分人，这样就有成对（pairs）的Anchor和Positive图片了。

下面看如何选择这些三元组来形成训练集（training set）。

一个问题是如果你从训练集中，随机地选择A、P和N，遵守A和P是同一个人，而A和N是不同的人这一原则。随机选择的话约束条件很容易满足，因为A和N比A和P差别很大的概率很大，这样网络并不能从中学到什么。所以要尽可能的选择难（hard）训练的A、P和N，使得d(A,P)和d(A,N)很接近，即：

这样你的学习算法会竭尽全力使右边这个式子变大，或者使左边这个式子变小，这样左右两边至少有一个间隔（margin），并且选择这样的三元组还可以增加你的学习算法的计算效率。因此，只有选择难的三元组梯度下降法才能发挥作用，使得这两边离得尽可能远。

如果感兴趣的话，这篇论文中有更多细节，作者是Florian Schroff, Dmitry Kalenichenko, James Philbin，他们建立了这个叫做FaceNet的系统，Florian Schroff, Dmitry Kalenichenko, James Philbin (2015). FaceNet: A Unified Embedding for Face Recognition and Clustering

总结一下，如上图，训练这个三元组损失你需要取你的训练集，然后把它做成很多三元组。定义了这些包括A、P和N的数据集之后，还需要最小化成本函数J。这样做的效果就是反向传播到网络中的所有参数来学习到一种编码，使得如果两个图片是同一个人，那么它们的d就会很小，如果两个图片不是同一个人，它们的d就会很大。

这就是三元组损失，并且如何用它来训练网络输出一个好的编码用于人脸识别。现在的人脸识别系统，尤其是大规模的商业人脸识别系统（large-scale commercial face recognition）都是在很大的数据集上训练。幸运的是，一些公司已经训练了这些大型的网络并且上传了模型参数。这一领域的一个实用操作就是下载别人的预训练模型（pretrained model），而不是一切都要从头开始（do everything from scratch yourself）。但是即使你下载了别人的预训练模型，Andrew认为了解怎么训练这些算法也是有用的，以防针对一些应用你需要从头实现这些想法。

说明：记录学习笔记，如果错误欢迎指正！转载请联系我。