一 环境 ez
二 训练
训练结果(66.158%)与原文(72.0%)有较大差异,通过issue发现可能有以下三点原因
1.作者在做test时候,把sequence8加入了训练序列,讲最终结果提交进行测试,(加入8的实验正在进行)。期望符合issue上面的情况;
2.深度学习trick:余弦学习率衰减(后续优化学习可以考虑);
3.调整了num_vote参数,对训练结果有提升;
讲num_vote调整为12,查看效果66.409与num_vote=1,66.158相比,提升不如其他的明显
4.环境与显卡。