背景知识
互信息(Mutual information)指的是两个变量的 联合分布 与 边缘分布 之间的 KL 散度/相对熵 (Kullback–Leibler divergence or relative entropy ).
Abstract
-
BERT 对于 clustering 和 semantic search 等句子对匹配任务来说不够高效,因为它需要计算每个句子对的组合,这是一个非常耗时的操作。
-
Sentence BERT (SBERT) 通过学习单个句子的语义表示来解决这个问题。
-
然而 SBERT 是在高质量的标注数据上训练的,这限制了它在标注稀缺场景的使用。本文提出一种基于 互信息最大化 在 BERT 之上的轻量扩展以及一种新颖的自监督学习目标, 以一种无监督的方式来