SentenceTransformers 是一个可以用于句子、文本和图像嵌入的Python库。 可以为 100 多种语言计算文本的嵌入并且可以轻松地将它们用于语义文本相似性、语义搜索和同义词挖掘等常见任务。
论文:https://arxiv.org/abs/1908.10084
官网:https://www.sbert.net/index.html
源码:https://github.com/UKPLab/sentence-transformers
摘要:
BERT(Devlin等人,2018)和RoBERTa(刘等人,2019)在句子对回归任务(如语义文本相似性(STS))上设定了新的最先进的性能。然而,它需要将两个句子都输入网络,这会导致巨大的计算开销:在10,000个句子的集合中找到最相似的对需要大约5000万次推理计算(约65小时)与BERT。BERT的构造使其不适合语义相似性搜索以及聚类等无监督任务。
在本出版物中,我们提出了句子-BERT(SBERT),这是对预训练的BERT网络的修改,该网络使用暹罗语和三元组网络结构来推导语义上有意义的句子嵌入,可