背景知识
互信息(Mutual information)指的是两个变量的 联合分布 与 边缘分布 之间的 KL 散度/相对熵 (Kullback–Leibler divergence or relative entropy ).
Abstract
-
BERT 对于 clustering 和 semantic search 等句子对匹配任务来说不够高效,因为它需要计算每个句子对的组合,这是一个非常耗时的操作。
-
Sentence BERT (SBERT) 通过学习单个句子的语义表示来解决这个问题。
<