一般表现是一个矩阵中有多个相同的数字,如果取最大值,会返回很多,没法记录梯度。
如果取最大值,应该返回的是第一个的最大值,这样能记录梯度。
例如:矩阵[0.45,0.13, 0.35, 0.45, 0.23, 0.54]
代码从torch.max变成max(),max()也能返回最大值
一般表现是一个矩阵中有多个相同的数字,如果取最大值,会返回很多,没法记录梯度。
如果取最大值,应该返回的是第一个的最大值,这样能记录梯度。
例如:矩阵[0.45,0.13, 0.35, 0.45, 0.23, 0.54]
代码从torch.max变成max(),max()也能返回最大值