Deep Learning
PyTorch 参数矩阵初始化
self.weight = nn.Parameter(torch.Tensor(inputsize, hiddensize))
nn.init.xavier_uniform_(self.weight)
PyTorch bias 初始化
self.bias = nn.Parameter(torch.Tensor(hiddensize))
nn.init.zeros_(self.bias)
ReLU 会导致更多的梯度爆炸,因为会保留正值,当权重非常大的时候,梯度就会变得非常大
tanh 会导致梯度消失,因为当值非常大的时候,tanh 的导数趋近于零,累积则会产生梯度消失,这一问题可以通过增强梯度信号进行解决
标签平滑(label smoothing)会使得真实类标签与错误类标签之间界限区域模糊,从而提高模型的泛化能力,减少模型在训练过程中的所需训练参数,减少模型与真实值之间的误差,使得模型更加快速地进行收敛。
transpose convolution 算法,相当于卷积逆过程,将 Input 的每个元素分别乘以 filter 的每个元素,并且不断扫描排列。
卷积 layer 相对于全连接的优点:权重共享,translation invariance.