归一化 transformer在进行self-Attention之后会进行一个layerNormalization 【将数据统一到固定区间内】 其中又分为batchNormalization和layerNormalization batchNormalization 即按照batch维度化成均值为0标准差为1的数据 Layer则是纵向将每次的向量数据进行归一化 残差作用:加入未学习的原向量使得到的结果的效果至少不弱于原来的结果