从头开始训练,会碰上loss=-ln(类别数)的情况,例如二分类问题loss恒等于0.69,四分类分体loss恒等于1.386推测是由于权重变成NaN之后通过fc变成相同的数导致最终每类的概率相同。
将参数的“gaussian”初始方式 修改为“xavier”, 否则训练的时候可能不会收敛。参数的初始化方式很重要。
convolution_param {
num_output: 64
pad: 1
kernel_size: 3
weight_filler {
type: "xavier" //将每个weight_filler处的gaussian修改成xavier
}
参考文献: