产生这一现象的原因是在 Parameter 初始化的时候使用 nn.init.xavier_uniform_(parameter)。
粗浅解释:因为使用 nn.init.xavier_uniform_() 初始化后的向量是关于0对称的函数,再使用 nn.LayerNorm 标准化一下变为零了 。
产生这一现象的原因是在 Parameter 初始化的时候使用 nn.init.xavier_uniform_(parameter)。
粗浅解释:因为使用 nn.init.xavier_uniform_() 初始化后的向量是关于0对称的函数,再使用 nn.LayerNorm 标准化一下变为零了 。