- 博客(1)
- 收藏
- 关注
原创 transformer详解
首先,模型需要对输入的数据进行一个embedding操作,(也可以理解为类似w2c的操作),enmbedding结束之后,输入到encoder层,self-attention处理完数据后把数据送给前馈神经网络,前馈神经网络的计算可以并行,得到的输出会输入到下一个encoder。例如,a-1是0.1,b-1是0.2,等等。这是单头注意力的结果。所以我们需要一种方式,把8个矩阵降为1个,首先,我们把8个矩阵连在一起,这样会得到一个大的矩阵,再随机初始化一个大矩阵和这个组合好的矩阵相乘,最后得到一个最终的矩阵。
2024-05-05 17:52:22
840
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人