首先BERT中的CLS向量是通过自注意力机制将所有token向量加权求和,
原论文中这样说:每个序列的第一个标记始终是特殊分类嵌入([CLS])。该特殊标记对应的最终隐藏状态(即, Transformer 的输出)被用作分类任务中该序列的总表示。对于非分类任务,这个最终隐藏状态将被忽略。
那么如果是将该序列分类,用CLS接一个全连接是不错的选择;如果要提取sentence embedding,其效果还不如所有token embedding然后池化操作(mean or max),还有一个比较不错的trick,就是token embedding加cnn然后max pooling
BERT中的CLS效果怎么样
最新推荐文章于 2024-04-19 09:47:39 发布