1.nn.Linear() 既可以作用于1维tensor,也可以作用于多维tensor
当x.shape为(2,3) nn.Linear(3,6) 时,输出x为(2,6)
当x.shape为(2,5,6) nn.Linear(6,4)时,输出x为(2,5,4)
说明:nn.Linear()只作用于最后一维特征,计算公式为x=x*A的转置+b
2.nn.LayerNorm()只作用于最后一维数据
当x.shape为(2,3)时,nn.LayerNorm只对每一行的3个元素进行归一化
当x.shape为(2,5,6)时,nn.LayerNorm会进行10次对一行6个元素的归一化