人脸特征点检测（三）基于神经网络的方法：VGG,Mobilenet-v2尝试

最新推荐文章于 2024-09-03 14:12:24 发布

goodluckcwl

最新推荐文章于 2024-09-03 14:12:24 发布

阅读量5.9k

点赞数

分类专栏： CV-其他 CV-人脸分析-人脸识别

本文链接：https://blog.csdn.net/u014230646/article/details/79445676

版权

9 篇文章 4 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

本篇主要尝试着用CNN做特征点检测。主要尝试VGG, MobilenetV2的结构。
代码https://github.com/goodluckcwl/Face-alignment-mobilenet-v2

VGG尝试

VGG的结构包含两个卷积加一个ReLU。

网络输入大小确定为 $70\times 60$ ，这个大小的输入设计几个卷积层就足够了。设计的网络结构如下：

Input	Operator	channels	stride	pad	kernel size
$70\times 60 \times 3$	Conv2d	64	1	1	$3\times 3$
$70\times 60 \times 64$	Conv2d	64	1	1	$3\times 3$
$70\times 60 \times 64$	Pooling	-	2	-	$2\times 2$
$35\times 30 \times 64$	Conv2d	128	1	1	$3\times 3$
$35\times 30 \times 128$	Conv2d	128	1	1	$3\times 3$
$35\times 30 \times 128$	Pooling	-	2	-	$2\times 2$
$18\times 15 \times 128$	Conv2d	192	1	1	$3\times 3$
$18\times 15 \times 192$	Conv2d	192	1	1	$3\times 3$
$18\times 15 \times 192$	Pooling	-	2	-	$2\times 2$
$9\times 8 \times 192$	Conv2d	256	1	0	$3\times 3$
$8\times 7 \times 256$	Inner Product	256	-	-	-
$256$	Dropout	-	-	-	-
$256$	Inner Product	136	-	-	-

分别尝试了0~1之间的dropout比率，最佳值为0.3。

用相对于瞳距归一化的欧式距离损失函数，可以收敛。主要的trick是图片要扩增，以及学习率要调整。

最终示例图片如下：
这里写图片描述
这个结果其实不是特别好，有比较多的改进的地方。

MobileNetv2构造了一个线性嵌入层的逆残差模块：首先把低维表达映射到高维表达，用depthwise卷积来提取特征，最后再把特征通过一个线性的卷积层投影回低维表达。通过这种方式减少了参数。

决定采用MobileNetv2，具体的结构设计经过实验，结合输入的图片的大小（采用64*64的输入），采用如下的结构：

Input	Operator	t	channels	n	stride
$64^2\times 3$	conv2d	-	16	1	2
$32^2\times 16$	bottleneck	6	24	1	2
$16^2\times 24$	conv2d	6	24	1	1
$16^2\times 24$	conv2d	6	32	1	2
$8^2\times 32$	conv2d	6	32	1	1
$8^2\times 32$	conv2d	6	64	1	2
$4^2\times 64$	conv2d	6	64	1	1
$4^2\times 64$	inner product	-	200	1	-
$200$	inner product	-	200	1	-
$200$	inner product	-	50	1	-
$50$	inner product	-	136	1	-