- 博客(1)
- 收藏
- 关注
原创 注意力机制
注意力机制对输入的数据,你的关注点是什么?如果让计算机关注到这些有价值的信息。如何计算1.输入经过编码后得到的向量2.得到当前词语的上下文关系,可以当作是加权3.构建3个矩阵分别来查询当前词和其他词的关系,以及特征向量的表达。 3个需要训练的矩阵 Q:要去查询的 K:等待着被查询 V:实际的特征信息 Q与K用内积来进行表示。 内积越大,相关性越大。 最终的分值,经过softmax就是最终的上下文结果。multi-headed机制通过不同的head得到多个特征
2020-10-12 09:07:41 112
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人