Transformer
湮尘XJ
这个作者很懒,什么都没留下…
展开
-
Transformer--Add&Normalize
归一化transformer在进行self-Attention之后会进行一个layerNormalization 【将数据统一到固定区间内】其中又分为batchNormalization和layerNormalizationbatchNormalization 即按照batch维度化成均值为0标准差为1的数据Layer则是纵向将每次的向量数据进行归一化残差作用:加入未学习的原向量使得到的结果的效果至少不弱于原来的结果...原创 2021-01-02 17:19:04 · 2383 阅读 · 1 评论 -
Transformer--Multi-headed机制
在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达原创 2021-01-02 16:32:18 · 473 阅读 · 0 评论