1.训练期间,输入图像固定为224x224,唯一的预处理是从每个像素中减去在训练集上计算的RGB均值。
2.都由5层卷积层、3层全连接层组成
3。使用小卷积核(3x3)减少参数。
4.Vgg网络结构中图像慢慢缩小,,减小的太快就容易损失过多重要信息。增加厚度来减少损失。
5.采用了尺度抖动,测试时的尺度抖动导致了更好的性能。S为训练图像的最小边,训练尺度。单尺度训练:按照固定s(s=256和s=384来缩放)
6.Dense(密集评估):即指全连接层替换为卷积层(第一FC层转换到7×7卷积层,最后两个FC层转换到1×1卷积层),最后得出一个预测的score map,再对结果求平均。
7.Multi-crop(多裁剪评估):即对图像进行多样本的随机裁剪。对三个尺度上每个尺度进行50次裁剪(5x5大小的正常网格,并进行两次翻转)即总共150次裁剪的效果图,然后通过网络预测每一个样本的结构,最终对所有结果平均。
8.使用多裁剪图像表现比密集评估略好
9.采用卷积网络融合,将性能良好的两种网络融合。通过对soft-max类别后验进行平均,结合了几种模型的输出。由于模型的互补性,这提高了性能。
•作者通过试验发现当使用固定值S训练时,Q的范围在[S−32,S,S+32]之间时,测试的结果与训练结果最接近,否则可能由于训练和测试尺度之间的巨大差异导致性能下降