论文阅读Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

最新推荐文章于 2024-03-15 13:35:42 发布

rotation ㅤ

最新推荐文章于 2024-03-15 13:35:42 发布

阅读量4.9k

点赞数 10

分类专栏：深度学习&机器学习文章标签：深度学习 nlp SBERT BERT

本文链接：https://blog.csdn.net/fengxinlinux/article/details/109195762

版权

论文信息

题目

Sentence Embeddings using Siamese BERT-Networks
使用孪生BERT网络结构的句子嵌入

作者

Nils Reimers, Iryna Gurevych

论文水平

EMNLP 2019

其它

论文下载地址：https://arxiv.org/abs/1908.10084
该论文的相关代码已开源，github链接：sentence-transformers，sentenc-tansformers文档：官方文档
sentenc-tansformers非常好用，封装的很好，使用简单

Abstract

虽然BERT和RoBERTa在很多句子对形式的回归任务（例如文本语义相似度）上达到了SOTA效果，但是它们还存在一些缺点：在这些任务中，它们均需要将比较的两个句子都传入到模型中计算，计算开销过大。BERT模型在一个1W句子集合中，找出最相近的一个句子对，需要5千万次推断计算（约65小时）才能完成，所以BERT并不适合语义相似度搜索等任务。

在该论文中，作者提出了一个新的模型，Sentence-BERT（简称SBERT）。SBERT采用双重或三重BERT网络结构，具体结构介绍会在后文中详细介绍。如果使用的是基于RoBERTa模型，则改造后的模型简称为SRoBERTa。

通过SBERT模型获取到的句子embedding，可以直接通过cos相似度计算两个句子的相似度，这样就大大减少了计算量。因为在使用BERT模型进行句子间相似度的判断时，需要从句子集合中，选出两个句子进行组合，传入BERT中进行计算，而使用SBERT模型，只需要将集合中每个句子单独传入到模型中，得到每个句子的embeding，计算相似度只需要使用cos函数计算两两embeding的cos距离即可。因此，使用BERT/RoBERTa模型需要65h才能完成的寻找最相似句子对任务，SBERT模型完成仅需5s。

作者在一些STS任务和迁移学习任务上评估SBERT模型，该模型达到了新的SOTA水平。