大家好,这篇文章是接上篇文章的一个补充文章,主要是回答一下上篇文章的问题,讲一下triplet loss。上一篇文章我们介绍了4种目前人脸识别领域的主流loss,如果没有阅读的同学可以先看一下那篇文章哦。
好的,针对上一篇文章的问题我们首先作出一个回答:
为什么这些同样是做分类的loss,在人脸领域如此大火,但在其他领域,比如Imagenet上面被大家用的基本没有呢?一些最普通最基本的问题上面,这些loss的表现如何?
这两个问题我通过实验验证,事实上在其他领域,是完全可以应用改进的新loss function的,而且在模型结构不改变,超参数不改变的情况下,模型的性能会有些许改善。大概在1%~3%点左右。
但是这里会延伸出来一个问题,我们费劲去将一个新的loss function用到模型里面只换来1%的提升,这究竟是否有价值?
事实上,比如最简单的MNIST数据集,用改进loss function提升甚至到不了0.1%(由于目前在这个问题上深度学习普遍模型准确率可达99.5%以上的准确率)。所以我们可以看出来,改进型loss想要取得较好的模型效果是有一定的前提的。
这个前提就是,对于分类问题而言,类别越多,改进loss function的效果越好,这和人脸识别问题相契合,以UMD face为例,其就包含了8277个类别,而改进loss会在这种多类别的分类任务中取得相对而言较好的效果。
好的,那么现在,我们把上次咱们遗留下来的彩蛋(triplet loss)给介绍一下。
Triplet Loss:
在开始介绍这个loss之前,我们首先需要理解一个这个loss所用到的一个概念:Anchor。这个概念能够帮助我们直击triplet的含义,方便我们对于其数学意义的理解。
anchor是什么?
我们可以简单理解为我们训练样本中任意取出的一个样本。比如取到的样本是黄磊老师:
这个在triplet中就是anchor,记为
正样本如何选取呢?其实很简单,就是同类样本,在本例中就还是黄磊老师,比如:
正样本我们记为:
负样本,就是任意一个和黄磊老师不一样的类别的人脸,比如何炅:
负样本我们记为:
那么此时,这三个样本就组成了一个triplet进行训练了。
三张样本,进入神经网络,在倒数第二层 embedding 层,一定会得到三个不同的embedding feature输出(对于embedding feature的理解参见上一篇文章哦)。我们将三个feature标记为:
直观上设计,我们一定是希望
数学表示就是:
这里,我们引入了
观察目标函数,那么其对应的训练损失函数也就很显然了:
这里的+代表如果()里的值为负数的时候,则值为0,否则为其本身。
这样就约束保证了,不同类别之间的embedding
以上就是我们的triplet loss了,是不是感觉很简单呢?
我在这里有个想法,我们一起回顾了所有的五种新的loss function的设计思路,那么是不是可以借鉴一下之前的四种,在采用triplet的思路之上,将triplet里面用的loss里面的
不过triplet loss也有其工业上的劣势,比如创建triplet 对会比较耗时,网络训练更新不容易等问题,这里就需要大家用更好的方式去创新更新啦。
好了今天就和大家分享到这里,
做个预告,我打算近两篇文章和大家聊聊google 现在大火的transformer(还是一样的从本质的数学理解), 和聊聊人体姿态学估计与重建的相关算法,算法之路,咱们快乐同行。
谢谢阅读~比心