去掉正则,激活算下三层MLP每一层权重梯度可以看到层层相扣
如果W太大太小层数太多就会有问题
因此引入Xavier来限制每层输出h满足均值为1,方差为a(超参数)的分布
同理也限制每层权重W满足均值为1方差为a的分布
具体计算不算了知道有这个就行了,pytorch引用很方便
疑问:批量归一化也做了限制,那有冲突吗
去掉正则,激活算下三层MLP每一层权重梯度可以看到层层相扣
如果W太大太小层数太多就会有问题
因此引入Xavier来限制每层输出h满足均值为1,方差为a(超参数)的分布
同理也限制每层权重W满足均值为1方差为a的分布
具体计算不算了知道有这个就行了,pytorch引用很方便
疑问:批量归一化也做了限制,那有冲突吗