torch.nn.init.kaiming_normal_(tensor, a=0, mode= 'fan_in', nonlinearity='leaky_relu')
此为0均值的正态分布,N~ (0,std)
std = sqrt(2/(1+a^2)*fan_in)
a为激活函数的负半轴的斜率,relu是0
mode: 选择“fan_in”保留了forward传递中权重的方差大小。选择' 'fan_out' ' '保留了向后传递的幅度。
没理解 mode 作用,先占个坑
nonlinearity: relu 和 leaky_relu, 默认 leaky_relu