最近读到一个很有意思的论文:TRANS-ENCODER: UNSUPERVISED SENTENCE-PAIR MODELLING THROUGH SELF- AND MUTUAL-DISTILLATIONS 。
https://arxiv.org/pdf/2109.13059.pdfarxiv.org
该论文给出了一个颇为有趣的在NLP的sentence相似度学习上,如何同时自监督的去训练出效果SOTA的Bi-Encoder和Cross-Encoder。
背景知识
首先,我们简单的介绍下概念:所谓Bi-Encoder,先分别计算两个句子的特征,然后计算特征的相似度 (比如cosine similarity);而Cross-Encoder,是将两句话一起输入模型,可以直接输出两个句子的语义一致性得分。一般来说Cross-Encoder效果会优于Bi-Encoder,但是Cross-Encoder的计算量要大得多(参考【3】)。

图片来自https://www.sbert.net/docs/pretrained_cross-encoders.html
接下来,我们站在比较高的视角,去大致理出一个关于sentence similarity的学习的技术发展脉络:

图二. 句子的语义相似性学习的发展脉络图
本文介绍了论文《TRANS-ENCODER: UNSUPERVISED SENTENCE-PAIR MODELLING THROUGH SELF-AND MUTUAL-DISTILLATIONS》的主要思想,该论文提出了一种结合自监督学习和知识蒸馏的方法,用于训练效果优秀的Sentence Bi-Encoder和Cross-Encoder。通过Bi-Encoder和Cross-Encoder之间的相互知识蒸馏,实现了模型的自我增强,提高了语义相似度学习的性能。
最低0.47元/天 解锁文章

869

被折叠的 条评论
为什么被折叠?



