综合:将某维度的矩阵在某个维度的数据变成他们在权重上的比例分布
softmax是一种特殊的归一化 归一化0-1的数字 而且都代表他们的占比 概率分配 log就是在上面做了一次log运算
dim代表对1,2,3维矩阵进行归一化计算的是按哪个维度进行计算 数字越大越深入 分别为0,1,2
参考https://blog.csdn.net/sunyueqinghit/article/details/101113251
综合:将某维度的矩阵在某个维度的数据变成他们在权重上的比例分布
softmax是一种特殊的归一化 归一化0-1的数字 而且都代表他们的占比 概率分配 log就是在上面做了一次log运算
dim代表对1,2,3维矩阵进行归一化计算的是按哪个维度进行计算 数字越大越深入 分别为0,1,2
参考https://blog.csdn.net/sunyueqinghit/article/details/101113251