一、embedding
1、pytorch——embedding函数生成的embedding
2、pos embedding【1,2,3,4,。。。。。32】 这个列表生成的embedding
3、type embedding 有两句话时来区分的。
最终是1+2+3三个向量相加得最终embedding
二、mul-head q、k、v,生成bert-embedding,一共12个head
1、q k两两结合,使用softmax生成注意力权重,然后和v结合生成b,b为最终值
2、self attention完成后,使用nor层和droup层,残差层结合
三、bert使用12个transformer中的encoder串联,及以上结构串联。
取最终的一个向量。