梯度消失和梯度爆炸
目的:要控制网络层每层输出的范围
解决方法,选择合适的初始化值:
常用初始化方法(根据具体模型来选择权值初始化方法)
1.Xavier均匀/正太分布
2.kaiming均匀/正态分布(Xavier不适于Relu函数)
torch.nn.init.kaiming_normal_(tensor(这里写模型.weight.data), a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)
in_put=t.randn([100,100])
class MLP(nn.Module):
def __init__(self,neural_num,