训练时第二个step loss特别大_轻松学Pytorch 人脸五点landmark提取网络训练与使用...

最新推荐文章于 2024-07-18 09:31:20 发布

weixin_39680208

最新推荐文章于 2024-07-18 09:31:20 发布

阅读量197

点赞数

文章标签：训练时第二个step loss特别大

点击上方蓝字关注我们

微信公众号：OpenCV学堂

关注获取更多计算机视觉与深度学习知识

大家好，本文是轻松学Pytorch系列文章第十篇，本文将介绍如何使用卷积神经网络实现参数回归预测，这个跟之前的分类预测最后softmax层稍有不同，本文将通过卷积神经网络实现一个回归网络预测人脸landmark，这里主要是预测最简单的五点坐标。

网络结构与设计

首先说一下，这里我参考了OpenVINO官方提供的一个基于卷积神经网络回归预测landmark的文档，因为OpenVINO官方并没有说明模型结构，更加没有源代码可以参考，但是我发现它对模型描述有一句话：

It has a classic convolutional design: stacked 3x3 convolutions, batch normalizations, PReLU activations, and poolings. Final regression is done by the global depthwise pooling head and FullyConnected layers

然后我就猜测了它的整个网络结构应该是这样：

多个单应的Stacked CONV ->BN->PReLU->Pooling
全局深度池化层
全连接输出5点坐标

同时我注意到它最终的模型很小，又结合它的输入是64x64大小的图像，所以我觉得Stacked CONV应该是连续2~3卷积层，这点我想作者在设计的时候参考了VGG16~19的结构，所以我也借用了一下。然后最重要的是全局深度池化，我当时看到depthwise我就知道了，跟1x1卷积类似，但是它不会有参数计算，所以我用pytorch自定义了一个。这样我就完成了整个网络的构建，最终我训练完网络大小只有1MB左右，官方的模型大小是800KB，感觉相差不大，而且我觉得我的模型还可以进一步减少层数，应该做到跟它差不多大不会它费事。官方说它们模型是基于caffe训练的，我就用pytorch自己搞一波，反正我也不知道它的模型具体长什么样子。就这样我就完成了模型审计，最终我的模型有三个stacked卷积层，一个全局深度池化头，全连接层输出10个数，就是五个点信息。这块的代码如下：

数据集

本来我想找一些公开的数据集的，但是经过一番挣扎之后，发现公开数据集还要各种处理得自己写一堆东西，所以说不要以为免费公开就好用，免费跟好用还差好远。后来我花了点时间自己标注了一个数据集，数据集的下载在之前轻松学Pytorch自定义数据制作上有链接，感兴趣的可以自己去下载即可。总计有1041张标记数据，几十张测试数据。

模型训练

模型训练的损失，损失公式如下：