caffe固定网络权重参数------遇到BatchNorm层和Scale层的时候

本文链接：https://blog.csdn.net/arielkid/article/details/84850255

本文详细介绍了如何在Caffe中控制梯度传播，特别是在需要固定某些层参数的情况下，如BatchNorm层和Scale层的处理方法。通过调整propagate_down属性和学习率，以及设置use_global_stats参数，可以精确地控制哪些层的参数在训练过程中保持不变。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通常的做法：

实现的关键变量是：propagate_down 含义：表示当前层的梯度是否向前传播
比如有4个全连接层A->B->C->D
a. 你希望C层的参数不会改变，C前面的AB层的参数也不会改变，这种情况也就是D层的梯度不往前反向传播到D层的输入blob（也就是C层的输出blob 没有得到梯度），你可以通过设置D层的propagate_down为false来做到。
propagate_down的数量与输入blob的数量相同，假如你某个层有2个输入blob，那么你应该在该layer的Param里面写上两行：
propagate_down : 0 # 第1个输入blob不会得到反向传播的梯度
propagate_down : 0 # 第2个输入blob不会得到反向传播的梯度
这样的话，你这个layer的梯度就不会反向传播啦，前面的所有layer的参数也就不会改变了
b. 你希望C层的参数不会改变，但是C前面的AB层的参数会改变，这种情况，只是固定了C层的参数，C层得到的梯度依然会反向传播给前面的B层。只需要将对应的参数blob的学习率调整为0：
在layer里面加上param { lr_mult: 0 }就可以了，比如全连接层里面：
layer {
type: "InnerProduct"
param { # 对应第1个参数blob的配置，也就是全连接层的参数矩阵的配置
lr_mult: 0 # 学习率为0，其他参数可以看caffe.proto里面的ParamSpec这个类型
}
param { # 对应第2个参数blob的配置，也就是全连接层的偏置项的配置
lr_mult: 0 # 学习率为0
}
}

但是遇到BatchNorm层和Scale层的时候，不论使用上面哪种方式固定权重参数，都会发现网络最终出来的值会有细微的变化，这种变化如果是利用新的数据进行微调，可以称为有益的变化，但是如果是在旧模型上增加新的分支，同时保留原来分支的性能，或者说进行KD训练的时候用来固定老师模型的权重的时候，这样的变化就是有害的。解决方式如下：

首先是BatchNorm层，除了将三个参数blob的学习率都设为0以外，看proto的说明：