Sentence Meta-Embeddings for Unsupervised Semantic Textual Similarity

68 篇文章 2 订阅
60 篇文章 1 订阅
该研究通过集成多种预训练的句子编码器,提出句子元嵌入方法,解决了无监督语义文本相似度(STS)任务。实验表明,这些元嵌入在STS Benchmark和STS12-16上超越了单源系统,提升了3.7%到6.4%的Pearson相关系数。方法包括基于GCCA、SVD和自编码器的集成,其中GCCA表现最佳,成为无监督STS的新SOTA。
摘要由CSDN通过智能技术生成

Abstract

  • 我们通过将不同的预训练 sentence encoders 集成到 sentence meta-embeddings 中,来解决无监督 STS 任务。
  • 我们尝试在句子级别上应用、扩展和评估了来自 word embedding 文献的 meta-embedding 方法,包括:
    • dimensionality reduction
    • generalized Canonical Correlation Analysis
    • cross-view auto-encoders.

我们的 sentence meta-embeddings 方法在 STS Benchmark 以及 STS12–STS16 上成为了新的无监督 SOTA,相比于 single-source systems 带来了 3.7% 到 6.4% 的 Pearson 相关系数提升。

1 Introduction

在词嵌入上应用元学习的效果超过了 single-source 词嵌入的效果,其原因可能是融合了各个组成部分的互补优势。

最近的研究热点是预训练通用的句编码器,即将句子的各种不同的语言特征编码进一个固定大小的向量。由于各种句编码器在网络结构和训练数据上各有不同,我们假设他们是可以优势互补的因而可以从 meta-embedding 中受益。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值