大量的实验表面,bert的每一层都含有丰富的语义信息,通常我们直接将最后一层的输出直接用于下游任务,但是其实可以通过注意力机制的方法,让包含更多语义的层得到更多的关注。,具体来说可以通过[cls]与pool-token,Q,K,V,计算得到每一程的注意力分数,然后在将每一程的权重与该层向量相乘得到最终的输出用于下游任务。
注意力机制用于BERT的每一层
最新推荐文章于 2024-07-26 13:24:37 发布
大量的实验表面,bert的每一层都含有丰富的语义信息,通常我们直接将最后一层的输出直接用于下游任务,但是其实可以通过注意力机制的方法,让包含更多语义的层得到更多的关注。,具体来说可以通过[cls]与pool-token,Q,K,V,计算得到每一程的注意力分数,然后在将每一程的权重与该层向量相乘得到最终的输出用于下游任务。