D2SC-GAN：基于双深浅通道生成对抗网络的课堂场景低分辨率人脸识别

一瞬にして失う

已于 2022-07-27 22:09:49 修改

阅读量871

点赞数

分类专栏：生成对抗网络低分辨率人脸识别文章标签：生成对抗网络机器学习人工智能计算机视觉

于 2022-07-27 22:03:04 首次发布

本文链接：https://blog.csdn.net/qq_60445109/article/details/125999968

版权

低分辨率人脸识别同时被 2 个专栏收录

7 篇文章 4 订阅

订阅专栏

生成对抗网络

4 篇文章 0 订阅

订阅专栏

论文简介：

1、通过将LR退化的识别样本映射到其对应的HR库样本来执行监督域自适应（DA），以执行闭合集人脸识别。

2、D2SC-GAN使用多分量损失函数，该函数由多分辨率分片MSE和归一化卡方距离损失函数组成，以及基于KL散度的损失函数。

3、提出了一种新的课堂人脸数据集，称为印度课堂人脸数据集（ICFD）。

1、D2SC-GAN框架

D2SC-GAN总体框架

该网络由两个生成器（浅生成器和深生成器）和一个鉴别器组成。

浅层网络 $G_{S}$ 固有地捕捉图像的低频分量，

深层网络 $G_{D}$ 捕捉图像中的细节（高频分量）。

因此，与使用单个生成器网络相比，当用于图像SR时，这两个网络的组合提供了更好的结果。

鉴别器D执行两个任务:

(1)识别输入图像何时为假或真;

(2)对输入图像进行分类以获得类别。

1.1 $G_{S}$ 框架

CONV_2D_N[（f，f），#F]：具有F个f×f滤波器的第N个2D卷积层；

DENSE_N[D]：D个节点的第N个线性层；

RESHAPE[（m，n），#N]：将前一层输出形状调整为 $R^{m\times n\times N}$ 的张量；

FLATTEN：将前一层输出转换为一维张量；

UPSAMPLING_2D：在前一层输出上执行去池化（unpooling）操作。

unpooling操作

1.2 $G_{D}$ 框架

使用高频分量捕捉人脸图像的更精细细节，因此有目的地提供了更大深度的架构。深度和浅层网络有助于分别捕获生成图像的高频和低频分量，确保所提出模型的重建性能。

1.3 D框架

MAXPOOLING_2D_ N[H，W]：在大小为H×W的窗口上执行第N个maxpool操作。

该网络执行两项任务：

（i）将输入图像识别为真实或虚假（对应于输出分支 $D_{bin}$ ）；

（ii）将输入图像分类为相应的类（ $D_{cls}$ ）。

2、D2SC-GAN的损失函数

2.1分类交叉熵损失函数

作用：训练具有sigmoid输出的深度神经网络分类。

$\iota _{\left ( y,y_{0} \right )}=-\frac{1}{n}\sum_{i=1}^{n}\left [ y_{0}^{i} Iny^{i}+\left ( 1- y_{0}^{i} \right )In\left ( 1- y^{i}\right )\right ]$

$y=\left \{ y^{1},..y^{n} \right \}$ ——与输入图像对应神经网络的预测sigmoid输出；

$y=\left \{ y_{0}^{1} ,...y_{0}^{n}\right \}$ ——是相同输入样本的实际标签。

2.2多分辨率重建（MRR）损失函数

作用：生成器能够从输入的低分辨率（LR）探测样本中生成类似图库的清晰高分辨率（HR）图像。

目的：通过关注生成的人脸细节和整体结构，确保准确重建人脸。

a、 $I_{G}^{B}$ 和 $I_{Gal}^{B}$ 是指生成的和相应的具有批量大小B的真实图像。批次的单个图像分别由 $I_{G}$ 和 $I_{Gal}$ 表示。

b、MR_PMSE损失函数通过结合一种新的多分辨率方法，确保在整体面部布局中保留微小细节。

c、按颜色通道应用NCD损失，确保生成的图像中正确的颜色再现，与图库图像一致。

2.3基于KL散度的损失函数

提出原因：由于该结构由浅层和深层网络组成，分别捕获图像的低频和高频分量。

目的【最大化（相当于损耗负值最小化）】：虽然流行的JS散度损失确保两个通道学习图像的不同方面（不知道两个通道是否实际参与重建任务）；但KL散度损失函数可以确保两个通道平等参与从输入LR探测图像生成HR图库样样本，利用浅层和深层模型的固有特性，分别捕获图像的低频和高频分量。

$\iota _{kld}=\frac{1}{2}\left \{ \left ( K^{2}\left ( h\left ( x \right ) ,M\right )+K^{2} \left ( h\left ( y \right ) ,M\right )\right )-\left \| K\left ( h\left ( x \right ),M \right )-K\left ( h\left ( y \right ) ,M\right )\right \|_{1} \right \}$

a、X和Y表示两个图像（计算前转换为灰度）；

b、h（·）返回输入图像的64维直方图；

c、M=sqrt（h（X）◦ h（Y））其中◦ 表示两个向量的逐元素乘法算子；

KL散度计算如下所示：

$K\left ( P,Q \right )=-\sum_{j=1}^{L}P_{j}log\frac{Q_{j}}{P_{j}}$

P和Q表示来自两个不同分布且向量长度相同L的向量。

2.4归一化χ2距离损失函数（NCD损失函数）

提出原因：由MR_PMSE损失生成的图像并不总是颜色正确的，具有肤色和头发颜色的变化，这在任何生成的图像中都是不可取的。

方法：χ2距离用于查找直方图之间的差异。我们使用该度量通过最小化图像之间的χ2距离来生成颜色正确的人脸图像。

$\iota _{ncd}\left ( h\left ( X \right ),h\left ( Y \right ) \right )=\frac{1}{2\left | b \right |\left | C \right |}\sum_{c=1}^{\left | C \right |}\sum_{i=1}^{\left | b \right |}\frac{\left ( h\left ( X^{c} \right )\left [ i \right ] -h\left ( Y^{c} \right )\left [ i \right ]\right )^{2}}{\left ( h\left ( X^{c} \right )\left [ i \right ] +h\left ( Y^{c} \right )\left [ i \right ]\right )^{2}}$

| C |——输入图像中的通道数；

$X^{c}$ 和 $Y^{c}$ ——两个图像X和Y的通道C；

h（·）——| b |的bin支路输入图像通道的L2归一化直方图；

h（·）[i]——i是| b |的bin支路直方图中的第i个元素。

2.5多分辨率分片MSE损失函数（MR_PMSE损失函数)

方法：我们从生成的和真实图像中提取不同分辨率（从小到大）的面片，以计算它们之间的均方误差。

PS：虽然一对小面片之间的均方误差确保了图像的细节得到保留，但大面片之间的均方误差保留了生成面的整体布局。

两个图像 $im_{1}$ 和 $im_{2}$ 之间的均方误差为：

$MSE\left (im _{1} ,im_{2}\right )=\sum_{i=1}^{\left | C \right |}\sum_{j=1}^{\left |im _{1} \right |}\sum_{k=1}^{\left | im_{1} \right |}\left \| im_{1}^{\left ( i,j,k \right )}-im_{2}^{\left ( i,j,k \right )} \right \|^{2}$

|C |——输入图像的通道数；

$\left | im_{1} \right |$ ——跨高度/宽度的像素数；

$im^{\left ( i,j,k \right )}$ ——是指位于图像im的通道i中的（j，k）处的像素。

2.6D2SC-GAN的总损失函数

生成器G： $\iota _{G}^{adv}\left ( I_{P},I_{Gal},I_{G1} ,I_{G2},I_{G}\right )=\iota _{cxe}\left ( D_{bin} \left ( I_{G} \right ),\overrightarrow{1}\right )+\iota _{cxe}\left ( D_{cls} \left ( I_{G} \right ),y\right )+\iota _{mrr}\left ( I_{G} ,I_{Gal}\right )-\iota _{kld}\left ( h\left ( I_{G1} \right ),h\left ( I_{G2} \right ) \right )$

$I_{P}$ ——用作GS和GD输入的探针样本，y为相应标签；

$I_{Gal}$ ——表示数据集的图库样本；

$I_{G1}$ 和 $I_{G2}$ ——分别是两个生成器GS和GD的结果输出（以 $I_{P}$ 为输入）；

$I_{G}$ ——元素平均值，随后称为增强探测样本。

判别器D：

$\iota _{D}^{adv}\left ( I_{Gal} ,I_{G}\right )=\iota _{cxe}\left ( D_{bin}\left ( I_{Gal} \right ) ,\overrightarrow{1}\right )+\iota _{cxe}\left ( D_{bin}\left ( I_{G} \right ) ,\overrightarrow{0}\right )+\iota _{cxe}\left ( D_{cls}\left ( I_{G} \right ) ,y\right )$

前两项——鉴别器从合成生成的人脸中正确识别原始图像；

最后一项——在闭集FR设置中正确分类生成的图像。

3、印度课堂人脸数据集（ICFD）

随着深度学习的出现及其对大型训练数据集的需求，我们看到了大规模人脸数据集的兴起。然而，据我们所知，尚未创建任何数据集来探索在无约束的课堂/研讨室场景中执行人脸识别所面临的挑战。因此提出了“印度课堂人脸数据集”来解决这个问题。

该数据集由84名受试者组成，其中63名男性和21名女性，共有17.8万张图像，分为两类：画廊和探测。

（a）低对比度/分辨率的照明不佳；

（b）模糊；

（c）遮挡

（d）数据集中存在的位姿变化。

PS：红色轮廓中的样本表示使用移动（三星S9）相机拍摄的人脸。

第一行——仅显示偏航的变化；

第二行——显示偏航和俯仰角的变化。

（a）ICFD；

（b）FR_SURV；

（c）TIPD；

（d）checkpoint；

（e）ScFace；

PS：红色框表示生成的人脸和相应探测样本的身份不匹配。

4、总结

D2SC-GAN模型使用新型双通道生成器架构，通过使用多分辨率重建组件和基于KL散度的组件最小化新型生成器损失。

作用：

a、从低分辨率探测样本合成清晰的高分辨率（HR）图库人脸图像在生物特征识别领域有许多应用，以及用于对生成的人脸进行分类的鉴别器；

b、用作预处理技术，将LR探测样本转换为相应的HR库人脸图像，用于FR和FV任务。

c、执行闭集人脸识别任务；

d、有效地完成了DA（域适应）任务，通过在真实世界中的退化，缩小了HR人脸和探测人脸之间的差距。

数据集：

a、提出了印度课堂人脸数据集（ICFD），这是同类研究中的第一个有助于研究人员探索在课堂环境中执行FR挑战的人脸数据集；

b、该模型在五个真实人脸数据集上的严格实验表明了该方法的优越性；

c、未来会将无监督域自适应纳入我们的框架来克服开集人脸识别的局限性。