1、加入惩罚项L1【绝对值】 和L2【默认 平方】,降低噪音的影响,减少权重W的值
2、丢弃法 层与层之间加入噪音,只能在全连接层使用
无偏差加入噪音 p为丢弃的概率 x'=
当概率p是0 否则为除以(1-p)
丢弃概率p 一般为0.1 0.5
def drop_out(x,dropout): # x 权重,dropout 是参数
mask=(torch.randn(x.shape)>dropout).float() #返回这样,大于dropout为1 返回【1,0,1,0】
return mask*x/(1-dropout)