在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达
如下图所示
得到多组特征之后可按照需要进行降维
通过多个Q K V矩阵提取特征,合并得到新的特征
通过多头提取的特征z1,z2再通过全连接层得到r1,r2而一般来说单层的multi-head都是不够的,可在r1,r2继续进行multi-head进行堆叠
在Transformer中一组q,k,v可以得到一种当前词在句中的表达,那么多组就能得到多种表达,从而得到更为精确的词表达
如下图所示
得到多组特征之后可按照需要进行降维
通过多个Q K V矩阵提取特征,合并得到新的特征
通过多头提取的特征z1,z2再通过全连接层得到r1,r2而一般来说单层的multi-head都是不够的,可在r1,r2继续进行multi-head进行堆叠