深度学习教程 | CNN应用：人脸识别和神经风格转换

最新推荐文章于 2024-06-03 11:50:11 发布

Dashesand

最新推荐文章于 2024-06-03 11:50:11 发布

阅读量821

点赞数 19

文章标签：深度学习 cnn 人工智能

本文链接：https://blog.csdn.net/weixin_42907150/article/details/136139605

版权

深度学习教程 | CNN应用：人脸识别和神经风格转换

收藏ShowMeAI查看更多精彩内容

第4门课卷积神经网络，第4周：特殊应用：人脸识别和神经风格转换

本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得，对应的课程视频可以在这里查看。

引言

在ShowMeAI前一篇文章 CNN应用：目标检测 中我们对以下内容进行了介绍：

目标定位
特征点检测
目标检测
边框预测
非极大值抑制
YOLO
RCNN

本篇主要介绍计算机视觉中其他应用，包括人脸识别和神经风格迁移。

CNN的应用

1.人脸识别

什么是人脸识别？ What is Face Recognition?

我们本节要介绍到人脸的一些计算机视觉应用，首先我们对人脸验证(Face Verification)和人脸识别(Face Recognition)做一个区分：

人脸验证：一般指一个一对一问题，只需要验证输入的人脸图像是否与某个已知的身份信息对应。
人脸识别：一个更为复杂的一对多问题，需要验证输入的人脸图像是否与多个已知身份信息中的某一个匹配。

上面2个任务中，一般人脸识别比人脸验证更难一些。因为假设人脸验证系统的错误率是1%，那么在人脸识别中，输出分别与K个模板都进行比较，则相应的错误率就会增加，约K%。模板个数越多，错误率越大。

1.1 One-Shot 学习

One-shot学习 One-shot Learning

人脸识别所面临的一个挑战是要求系统只采集某人的一个面部样本，就能快速准确地识别出这个人，即只用一个训练样本来获得准确的预测结果。这被称为One-Shot学习。

One-shot learning对于数据库中的NNN个人，对于每张输入图像，Softmax输出N+1N+1N+1种标签(N个人+都不是=N+1种类别)，这种处理方法有两个缺点：

每个人只有一张图片，训练样本少，构建的CNN网络不够健壮。
若数据库增加另一个人，输出层Softmax的维度就要发生变化，相当于要重新构建CNN网络，使模型计算量大大增加，不够灵活。

为了解决One-shot学习的问题，引入了相似函数(similarity function)。相似函数表示两张图片的相似程度，用d(img1,img2)d(img1,img2)d(img1,img2)来表示。若d(img1,img2)d(img1,img2)d(img1,img2)较小，则表示两张图片相似，是同一个人；若d(img1,img2)d(img1,img2)d(img1,img2)较大，则表示两张图片不是同一个人。

相似函数定义及判定规则如下：

人脸识别

Similarity=d(img1,img2)Similarity = d(img1, img2)Similarity=d(img1,img2)

d(img1,img2)≤τd(img1,img2)\leq \taud(img1,img2)≤τ则判定图片相似
d(img1,img2)>τd(img1,img2)> \taud(img1,img2)>τ则判定图片不同

具体的，在人脸识别问题中，会计算测试图片与数据库中KKK个目标的相似函数，取其中d(img1,img2)d(img1,img2)d(img1,img2)最小的目标为匹配对象。若所有的d(img1,img2)d(img1,img2)d(img1,img2)都很大，则表示数据库没有这个人。

1.2 Siamese 网络

Siamese 网络 Siamese network

我们在前面的内容里，看到CNN对于图像有很好的表征能力，训练好的模型可以通过网络层次计算对图像做非常有效的向量化表征，基于此基础我们可以构建图像相似度度量学习的网络，这就是著名的Siamese 网络，它是一种对两个不同输入运行相同的卷积网络，然后对它们的结果进行比较的神经网络。

Siamese网络的大致结构如下：

人脸识别

上图中2张图片x(1)x^{{(1)}x(1)、x(2)x}{(2)}x(2)分别输入两个相同的卷积网络中，经过全连接层后不再进行Softmax，而是得到特征向量f(x(1))f(x^{{(1)})f(x(1))、f(x(2))f(x}{(2)})f(x(2))。

这时，可以通过各自网络层的输出向量之差的范数来表示两幅图片的差异度：

d(x(1),x(2))=∣∣f(x(1))−f(x(2))∣∣22d(x^{(1)}, x^{(2)}) = ||f(x^{(1)}) - f(x^{(2)})||2_2d(x(1),x(2))=∣∣f(x(1))−f(x(2))∣∣22

注意到，在Siamese网络中，不同图片使用的是同一套CNN网络结构和参数。我们会训练网络，不断调整网络参数，使得属于同一人的图片之间d(x(1),x(2))d(x^{(1)},x{(2)})d(x(1),x(2))很小，而不同人的图片之间d(x(1),x(2))d(x^{(1)},x{(2)})d(x(1),x(2))很大。最终：

若x(i)x^{{(i)}x(i)、x(j)x}{(j)}x(j)是同一个人，则∣∣f(x(1))−f(x(2))∣∣2||f(x^{(1)})-f(x{(2)})||^2∣∣f(x(1))−f(x(2))∣∣2较小
若x(i)x^{{(i)}x(i)、x(j)x}{(j)}x(j)不是同一个人，则∣∣f(x(1))−f(x(2))∣∣2||f(x^{(1)})-f(x{(2)})||^2∣∣f(x(1))−f(x(2))∣∣2较大

相关论文：Taigman et al., 2014, DeepFace closing the gap to human level performance

1.3 Triplet 损失

Triplet 损失

回到人脸识别的任务，要构建出合适的CNN模型，我们需要引入Triplet Loss这个损失函数。

Triplet Loss需要每个样本包含三张图片：靶目标(Anchor)、正例(Positive)、反例(Negative)，所以它也译作「三元组损失」。

人脸识别

如图所示，靶目标和正例是同一人，靶目标和反例不是同一人。Anchor和Positive组成一类样本，Anchor和Negative组成另外一类样本。

我们希望前面提到的Siamese网络中的CNN输出图像表征f(A)f(A)f(A)接近f(D)f(D)f(D)，即∣∣f(A)−f(D)∣∣2||f(A)-f(D)||^{2∣∣f(A)−f(D)∣∣2尽可能小，而∣∣f(A)−f(N)∣∣2||f(A)-f(N)||}2∣∣f(A)−f(N)∣∣2尽可能大，数学上满足：

∣∣f(A)−f§∣∣2≤∣∣f(A)−F(N)∣∣2||f(A)-f§||^2\leq ||f(A)-F(N)||^2∣∣f(A)−f§∣∣2≤∣∣f(A)−F(N)∣∣2

∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2≤0||f(A)-f§||^{2-||f(A)-F(N)||}2\leq 0∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2≤0

上述不等式约束有个问题：如果所有的图片都是零向量，即f(A)=0,f§=0,f(N)=0f(A)=0,f§=0,f(N)=0f(A)=0,f§=0,f(N)=0，那么上述不等式也满足。但是这对我们进行人脸识别没有任何作用。

我们希望得到∣∣f(A)−f§∣∣2||f(A)-f§||^{2∣∣f(A)−f§∣∣2远小于∣∣f(A)−F(N)∣∣2||f(A)-F(N)||}2∣∣f(A)−F(N)∣∣2。所以，我们添加一个超参数α\alphaα，且α>0\alpha>0α>0，对不等式约束修改如下：

∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2≤−α||f(A)-f§||^{2-||f(A)-F(N)||}2\leq -\alpha∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2≤−α

∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2+α≤0||f(A)-f§||^{2-||f(A)-F(N)||}2+\alpha \leq 0∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2+α≤0

不等式中的α\alphaα也被称为边界margin，和支持向量机中的margin类似(详细算法可以参考ShowMeAI文章 SVM模型详解)。举个例子，若d(A,P)=0.5d(A,P)=0.5d(A,P)=0.5，α=0.2\alpha=0.2α=0.2，则d(A,N)≥0.7d(A,N)\geq0.7d(A,N)≥0.7。

接下来，基于A，P，N三张图片，就可以定义Loss function为：

L(A,P,N)=max(∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2+α, 0)L(A,P,N)=max(||f(A)-f§||^{2-||f(A)-F(N)||}2+\alpha,\ 0)L(A,P,N)=max(∣∣f(A)−f§∣∣2−∣∣f(A)−F(N)∣∣2+α, 0)

那么对于m组训练样本的数据集，我们的cost function为：

J=∑i=1mL(A(i),P(i),N(i))J=\sum_{i=1}^mL(A{(i)},P^{(i)},N{(i)})J=i=1∑mL(A(i),P(i),N(i))

关于训练样本，必须保证同一人包含多张照片，否则无法使用这种方法。例如10k张照片包含1k个不同的人脸，则平均一个人包含10张照片。这个训练样本是满足要求的。

数据准备完毕之后，就可以使用梯度下降算法，不断训练优化CNN网络参数，让我们数据集上的cost function不断减小接近0。

一些训练细节：

① 同一组训练样本，A，P，N的选择尽可能不要使用随机选取方法。

因为随机选择的A与P一般比较接近，A与N相差也较大，毕竟是两个不同人脸。
这样的话，也许模型不需要经过复杂训练就能实现这种明显识别，但是抓不住关键区别。

② 最好的做法是人为选择A与P相差较大(例如换发型，留胡须等)，A与N相差较小(例如发型一致，肤色一致等)。

这种人为地增加难度和混淆度会让模型本身去寻找学习不同人脸之间关键的差异，「尽力」让d(A,P)d(A,P)d(A,P)更小，让d(A,N)d(A,N)d(A,N)更大，即让模型性能更好。

如下为一些A、P、N的例子：

人脸识别

相关论文：Schroff et al., 2015, FaceNet: A unified embedding for face recognition and clustering

1.4 人脸验证与二分类模式

面部验证与二分类 Face Verification and Binary Classification

除了Triplet损失函数，二分类结构也可用于学习参数以解决人脸识别问题。其做法是输入一对图片，将两个Siamese网络产生的特征向量输入至同一个Sigmoid单元，输出1则表示是识别为同一人，输出0则表示识别为不同的人。

人脸识别

在上述网络中，每个训练样本包含两张图片。通过Siamese网络把人脸识别问题转化成了一个二分类问题。引入逻辑输出层参数www和bbb，输出y^\hat yy^表达式为：

y^=σ(∑k=1Kwk∣f(x(i))k−f(x(j))k∣+b)\hat y=\sigma(\sum_{k=1}^Kw_k|f(x{(i)})_k-f(x^{{(j)})_k|+b)y}=σ(k=1∑Kwk∣f(x(i))k−f(x(j))k∣+b)

其中参数wkw_kwk和bbb都是通过梯度下降算法迭代训练得到。

y^\hat yy^的另外一种表达式为：

y^=σ(∑k=1Kwk(f(x(i))k−f(x(j))k)2f(x(i))k+f(x(j))k+b)\hat y=\sigma(\sum_{k=1}^{Kw_k\frac{(f(x}{(i)})_k-f(x^{(j)})_k)2}{f(x^{(i)})_k+f(x{(j)})_k}+b)y^=σ(k=1∑Kwkf(x(i))k+f(x(j))k(f(x(i))k−f(x(j))k)2+b)

上式被称为χ\chiχ方公式，也叫χ\chiχ方相似度。

训练好上述模型后，进行人脸识别的常规方法是测试图片与模板分别进行网络计算，编码层输出比较，计算二分类概率结果。

为了减少计算量，可以提前进行预计算：提前将数据库每个模板的编码层输出f(x)f(x)f(x)保存下来。这个过程可以并行，而且因为是离线过程，对于时效性要求并没有那么高。

实际测试预估时，库内的人脸编码都已计算好，只需要计算测试图片的网络输出，得到的f(x(i))f(x^{{(i)})f(x(i))直接与存储的模板f(x(j))f(x}{(j)})f(x(j))进行下一步的计算即可，总计算时间减小了接近一半。

这种方法也可以应用在之前提到的triplet loss网络中。

2.神经风格迁移

什么是神经风格转换？ What is Neural Style Transfer?

神经风格迁移(Neural style transfer)将参考风格图像的风格「迁移」到另外一张内容图像中，生成具有其特色的图像。如下是几个神经风格迁移的例子：

神经风格迁移

后续的方法介绍和推导中：我们会用CCC表示内容图片，SSS表示风格图片，GGG表示生成的图片。

2.1 深度卷积网络学到了什么

什么是深度卷积网络？ What Are Deep Convnets Learning?

想要理解如何实现神经风格转换，首先要理解在输入图像数据后，一个深度卷积网络从中都学到了些什么。我们借助可视化来做到这一点。

典型的CNN网络结构如下：

神经风格迁移

我们从第1个隐层开始可视化解释，我们遍历所有训练样本，找出让该层激活函数输出最大的9块图像区域；然后再找出该层的其它单元(不同的滤波器通道)激活函数输出最大的9块图像区域；最后共找999次，得到9×99 \times 99×9的图像如下所示，其中每个3×33 \times 33×3区域表示一个运算单元。

神经风格迁移

上图表明，第1层隐层检测的是原始图像的边缘和颜色阴影等简单信息。用同样的方法去操作CNN的后续隐层，随着层数的增加，捕捉的区域更大，特征逐步变得复杂，从边缘到纹理再到具体物体。

神经风格迁移

相关论文：Zeiler and Fergus., 2013, Visualizing and understanding convolutional networks

2.2 代价函数

代价函数 Cost Function

神经风格迁移生成图片G的代价函数由两部分组成：CCC与GGG的内容相似程度和SSS与GGG的风格相似程度。其中，α\alphaα、β\betaβ是超参数，用来调整相对比重。

神经风格迁移

神经风格迁移的算法步骤如下所示：

神经风格迁移

随机生成图片GGG的所有像素点。
使用梯度下降算法使代价函数最小化，以不断修正GGG的所有像素点，使G逐渐有C的内容和G的风格。

相关论文：Gatys al., 2015. A neural algorithm of artistic style

(1) 内容代价函数

内容代价函数 Content Cost Function

上述代价函数包含一个内容代价部分和风格代价部分。我们先看内容代价函数Jcontent(C,G)J_{content}(C, G)Jcontent(C,G)，它表示图片CCC和图片GGG之间的内容相似度。我们一般基于一个中间层lll层的激活函数输出 a©[l]a^{©[l]}a©[l] 与 a(G)[l]a^{(G)[l]}a(G)[l] 来衡量CCC和GGG之间的内容相似度。

具体的Jcontent(C,G)J_{content}(C, G)Jcontent(C,G)计算过程如下：

使用一个预训练好的CNN(例如VGG)；
选择一个隐藏层lll来计算内容代价。lll太小则内容图片和生成图片像素级别相似，lll太大则可能只有具体物体级别的相似。因此，lll一般选一个中间层；

Jcontent(C,G)=12∣∣(a©[l]−a(G)[l])∣∣2J_{content}(C, G) = \frac{1}{2}||(a^{©[l]} - a^{(G)[l]})||2Jcontent(C,G)=21∣∣(a©[l]−a(G)[l])∣∣2

(2) 风格代价函数

风格代价函数 Style Cost Function

接下来我们要讨论风格代价函数，在CNN网络模型中，图片的风格可以定义成第l层隐藏层不同通道间激活函数的乘积(相关性)。

神经风格迁移

每个通道提取图片的特征不同，如下图：

神经风格迁移

标为黄色的通道提取的是图片的垂直纹理特征，标为蓝色的通道提取的是图片的背景特征(橙色)。
计算这两个通道的相关性，相关性的大小，即表示原始图片既包含了垂直纹理也包含了该橙色背景的可能性大小。
通过CNN，「风格」被定义为同一个隐藏层不同通道之间激活值的相关系数，因其反映了原始图片特征间的相互关系。

对于风格图像SSS，选定网络中的第lll层，我们定义图片的风格矩阵(style matrix)为：

Gkk′l=∑i=1nH[l]∑j=1nW[l]aijklaijk′lG^{l}{kk\prime} = \sum^{n{[l]}H}{i=1} \sum^{n{[l]}W}{j=1} a^{l}{ijk} a^{l}_{ijk\prime}Gkk′l=i=1∑nH[l]j=1∑nW[l]aijklaijk′l

其中，iii和jjj为第lll层的高度和宽度；kkk和k′k\primek′为选定的通道，其范围为111到nC[l]n_C^{{[l]}nC[l]；aijk[l](S)a}{l}_{ijk}aijkl为激活。

同理，对于生成图像GGG，有：

Gkk′l=∑i=1nH[l]∑j=1nW[l]aijklaijk′lG^{l}{kk\prime} = \sum^{n{[l]}H}{i=1} \sum^{n{[l]}W}{j=1} a^{l}{ijk} a^{l}_{ijk\prime}Gkk′l=i=1∑nH[l]j=1∑nW[l]aijklaijk′l

因此，第lll层的风格代价函数为：

Jstylel=1(2nH[l]nW[l]nC[l])2∑k∑k′(Gkk′l−Gkk′l)2J^{[l]}{style}(S, G) = \frac{1}{(2n^{[l]}_Hn{[l]}Wn^{[l]}_C)2} \sum_k \sum{k\prime}(G^{l}{kk\prime} - G^{{[l](G)}_{kk\prime})}2Jstylel=(2nH[l]nW[l]nC[l])21k∑k′∑(Gkk′l−Gkk′l)2