1. glu 计算
原理
demo
dropout
原理
训练过程中,输入张量的一些元素按从伯努利分布中采样的概率p随机置零。在每个前向调用过程中每个通道都能被独立置零。
Dropout方法证明被证明是正则化和防止神经元的互适应(co-adaptation)效应的有效技术。
形状:
输入: 输入可以是任意形状
输出: 输出和输入同形状
demo
pytorch 计算BN的坑
import torch
import torch.nn as nn
bn = nn.BatchNorm2d(3)
x = torch.randn(4, 3, 2, 2)
y = bn(x)
import pdb
pdb.set_trace()
print(bn.weight, bn.bias)
print(y)
print(x)
a = (x[0, 0, :, :] + x