多尺度训练与测试

最新推荐文章于 2024-08-20 00:21:24 发布

dfql83704

最新推荐文章于 2024-08-20 00:21:24 发布

阅读量3k

点赞数 3

文章标签：人工智能

原文链接：http://www.cnblogs.com/Terrypython/p/10642091.html

版权

　　输入图片的尺寸对检测模型的性能影响相当明显，事实上，多尺度是提升精度最明显的技巧之一。在基础网络部分常常会生成比原图小数十倍的特征图，导致小物体的特征描述不容易被检测网络捕捉。通过输入更大、更多尺寸的图片进行训练，能够在一定程度上提高检测模型对物体大小的鲁棒性，仅在测试阶段引入多尺度，也可享受大尺寸和多尺寸带来的增益。

　　multi-scale training/testing最早见于“Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”这篇文章，训练时，预先定义几个固定的尺度，每个epoch随机选择一个尺度进行训练。测试时，生成几个不同尺度的feature map，对每个Region Proposal，在不同的feature map上也有不同的尺度，我们选择最接近某一固定尺寸（即检测头部的输入尺寸）的Region Proposal作为后续的输入。在“Object Detection Networks on Convolutional Feature Maps”这篇文章中，选择单一尺度的方式被Maxout（element-wise max，逐元素取最大）取代：随机选两个相邻尺度，经过Pooling后使用Maxout进行合并，如下图所示。