假如网络输入是608*608大小的,最后得到的特征图是19*19,38*38,76*76.三个特征图中,最大的76*76负责检测小目标,而对应到608*608,每格特征图的感受野是608/76=8*8的大小。
再将608*608对应到7680*2160上,以最长边7680为例,7680/608*8=101。
即如果原始图像中目标的宽或高小于101像素,网络很难学习到目标的特征信息。
很多图像分辨率很大,如果简单的进行下采样,下采样的倍数太大,容易丢失数据信息。但是倍数太小,网络前向传播需要在内存中保存大量的特征图,极大耗尽GPU资源,很容易发生显存爆炸,无法正常的训练及推理。
因此可以借鉴2018年YOLT算法的方式,改变一下思维,对大分辨率图片先进行分割,变成一张张小图,再进行检测。
2.如果本身要提取的特征很小那卷积核也应该很小,卷积核太大比如16x16 vs 4x4这样的差异可能导致丢失一些局部特征