论文精读(1)-- Lipschitz constrained parameter initialization for deep transformers
概览
改变residual connection与layer normalization的位置可以缓解深层Transformer难以优化的问题。
作者比较了计算顺序(residual connection与layer normalization的位置)上的细微差别,并提出了一种参数初始化方法,该方法利用Lipschitz约束对Transformer的参数进行初始化。
即使不调整原来的计算顺序,应用Lipschitz约束进行参数初始化,也可以使得模型正常收敛。
1、引言
多层网络可以增强模型的容量,但同
原创
2020-09-22 16:47:04 ·
389 阅读 ·
0 评论