最近刷到CVPR和ICCV近两年来在关键点方面的论文,简单总结下,主要是想选一些在移动端能部署的网络结构。最近两年的关键点论文主要用一些主流的方法去做的,比如用教师模型去筛选检测之后的关键点(知识蒸馏),用风格转移的方式去合成人脸(风格迁移),还有用光流利用帧与帧之间的信息去模糊的(去模糊)。对比之后发现这些网络都比较复杂,不适合移动端。但是18年SAN用聚类的方式选出风格,然后用GAN合成人脸(cycleGAN),但是训练阶段比较简单,用的网络就是VGG合成多尺度信息,NME测试仅次于PFLD,作者也公布了代码(pytouch),所以可以考虑在移动端部署。
1、Style Aggregated Network for Facial Landmark Detection(SAN)
论文地址:https://arxiv.org/abs/1803.04108
论文出发点:同一张图片不同风格关键点细节定位有差异。
实现方法:SAN结构由两个部分组成
(1)风格聚合人脸生成模块(style-aggregated face generation module):
通过GAN将所有输入图片转换成不同风格,并且合并成不同风格人脸(生成不同风格人脸),
(2)关键点预测模块(facial landmark prediction module):将所有不同风格聚类的人脸和原始图片输入检测器作为两种互补的特征,利用这两种特征通过级联的方式产生热力图,最后输出的特征是通过三个不同尺寸的FC进行多尺度输出concat之后输出最终的关键点热力图,最后将热力图转化为关键点。
不同风格人脸生成:聚类+CycleGAN