##tensorflow转为pytorch代码,复现结果浮动较大
尝试方法:
- 在测试和验证部分加入 model.eval()
- 去掉训练部分的shuffle ,保证每次送入的数据一样 。
- 设定各个部分的随机种子
` random.seed(42)
np.random.seed(42)
pl.seed_everything(42)
torch.cuda.manual_seed(42)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False`
- 加入模型初始化(根据非线性层的不同,选择不同的初始化的方式)
xavier不适合relu激活函数。适用于tanh和softsign。
# init
for p in self.parameters():
if p.dim() > 1:
nn.init.xavier_normal_(p)
凯明初始化适合relu prelu leaky-relu一系列激活函数
def _init_parameters(self):
for m in self.modules():
if isinstance(m, nn.Conv2d):
nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
nn.init.constant_(m.bias, 0)
elif isinstance(m, nn.Linear):
nn.init.normal_(m.weight, 0, 0.01)
nn.init.constant_(m.bias, 0)
5.最新的一个说法是模型的参数量过小,导致实验的性能不稳定。我试一下。其实就算换成动态卷积,也增加不了多少参数。