1 南溪推荐的主干网络——resnet50_dcn
2 主干网络的设计范式
2.1 卷积层
2.1.1 使用深度可分离卷积
较好的应用就是Xception,Xception在PaddlePaddle的排行榜中也展现了很好的结果;
2.2 特征融合——使用1x1卷积
使用1x1卷积来进行特征融合;
2.3 激活函数——ReLU(推荐)
可以选择的激活函数有ReLU和Mish函数;
2.3.1 Mish函数
这里记录一个Mish函数的简单实现,
class Mish(nn.Module):
def forward(self, x):
return x * torch.nn.functional.softplus(x).tanh()
实际测试的结果不是很理想,原因是以上用pure-torch实现的Mish()函数会占用较多的显存,
(所以无奈之下,南溪只好将bs=3),不过这样子在QMV上的结果没有基于ReLU的resnet50_dcn效果好,
所以南溪还是暂时选择ReLU函数;