小人脸检测 | ||
尺度不变性 | 尺度的多任务训练模型 | 小模版——检测小人脸 大模板——提取人脸详细特征 |
提取尺度不变性的特征(推广预训练网络) | ||
图像分辨率 | 高于300px和低于3px的人脸图像检测都很困难 | |
语义推理 | 利用人脸图像的背景语义信息来进行检测 | 中心‘凹’描述符 |
1、如何寻找25*20像素的人脸?
将检测对象看作一个二元热值预测图像问题,像素(x,y)处的预测热图是以(x,y)为中心的固定检测大小的置信度。通过ResNet中的FCN来训练热图预测器,提取多尺度特征,即(res2cx、res3dx、res4fx、res5cx),后面简称为(res2、res3、res4、res5),如图1所示。
图1
图中绿色代表res2,淡蓝色代表res3,深蓝色代表res4,黑色代表res5。此时我们利用多个尺度框检测就可以利用人脸图像的背景语义信息帮助检测。(感受野越小,越适合小人脸)
2、训练一个大小与检测对象不同的模板会怎样?
25*20——采用50*40的模板(上采样)
250*200——采用125*100的模板(下采样)
图2
从图2可知,ImageNet数据集上的图像大多在40-140像素之间,所以我们采用采样的方式构建一个中等模板,让小人脸或者大人脸处于该像素之间,具体采样方式如图3所示。
图3
我们可以看出,采用中等模板时,准确率都比原来的模板要有所提升。
3、对于特定大小的对象,是否有选择模板分辨率的一般策略?
a、定义模板:
b、根据模板可以寻找原图像的尺寸:
eg:(250,200,1)——原图像为(250,200)
(125,100,0.5)——原图像为(250,200)
疑问:什么样的能使模板性能最好?
大于140px的图像——2倍小的规范分辨率
小于40px的图像——2倍大的规范分辨率
40px-140px的图像——同等大小的规范分辨率
4、二元多通道热图预测器的训练框架。
图4
a、shared CNNs采用resnet101、resnet50、VGG16来进行实验,其中resnet101的实验结果最佳。
b、对输入图像,我们先创建一个粗略的图像金字塔,即(0.5x、1x、2x)。
c、放入端对端的网络中训练,得到对应的响应模板。
d、在1x的模板中采用NMS抑制来融合不同模板的检测见过。
e、只在2x模板中使用B型模板。
以上便是博主对Tiny Face的一些浅显的理解,欢迎各位大佬指教。