torch中张量归一化后训练变慢问题
在做相似度任务计算时,通常会计算两个编码后向量的内积,再通过softmax+cross entropy进行分类。那么在内积前是否需要对向量归一化?归一化对梯度反向传播的影响是怎样的?本文通过简单的代码演示表明:归一化严重影响训练速度,因此在内积时无需做归一化处理。
代码示例:
1、不归一化:
torch.manual_seed(100)
x1, x2 = torch.rand(10, 768), torch.rand(10, 768)
# x1 = x1 / torch.norm(x1, dim=1, ke
原创
2020-09-22 11:58:56 ·
756 阅读 ·
0 评论