Abstract BERT 和 RoBERTa 在 semantic textual similarity (STS) 等 sentence-pair regression tasks 上取得了 SOTA 结果。然而 BERT 和 RoBERTa 需要将两个句子同时输入模型,这会带来巨大的计算开销。比如在 10,000 个句子中找出最相似的两个两个句子,需要 ( 10 , 000 2 ) = 10 , 000 ! (