图片为引用后补充,若侵权则删除。
darknet53表示有53个卷积层,实际共占74层(按运行时输出的网络结构来算).
detection层负责预测某个规模(划分grid数目,有3个规模13,26,52分别于82,94,106层预测)的boxes回归值(每个格子预测3个boxes的回归值包括坐标,对象和类别,共3*(4+1+20)=75个值).
route层若有两个参数,表示连接两个层,如86层连接85和61;一个参数表示这个route层跟那层参数一致(如83层跟79一致).
shortcut层的参数层跟这一层连接.
具体层数据维度如下(可参照cfg文件,论文2.3的解释与上图自行计算):
layer filters size input output
0 conv 32 3 x 3 / 1 416 x 416 x 3 -> 416 x 416 x 32
1 conv 64 3 x 3 / 2 416 x 416 x 32 -> 208 x 208 x 64
2 conv 32 1 x 1 / 1 208 x 208 x 64 -> 208 x 208 x 32
3 conv 64 3 x 3 / 1 208 x 208 x 32 -> 208 x 208 x 64
4 Shortcut Layer: 1
5 conv 128 3 x 3 / 2 208 x 208 x 64 -> 104 x 104 x 128
6 conv 64 1 x 1 / 1 104 x 104 x 128 -> 104 x 104 x 64
7 conv 128 3 x 3 / 1 104 x 104 x 64 -> 104 x 104 x 128
8 Shortcut Layer: 5
9 conv 64 1 x 1 / 1 104 x 104 x 128 -> 104 x 104 x 64
10 conv 128 3 x 3 / 1 104 x 104 x 64 -> 104 x 104 x 128
11 Shortcut Layer: 8
12 conv 256 3 x 3 / 2 104 x 104 x 128 -> 52 x 52 x 256
13 conv 128 1 x 1 / 1 52 x 52 x 2