Sentence Meta-Embeddings for Unsupervised Semantic Textual Similarity

最新推荐文章于 2024-03-05 10:56:02 发布

chansonzhang

最新推荐文章于 2024-03-05 10:56:02 发布

阅读量132

点赞数 1

分类专栏： NLP Papers NLP AI 文章标签： lstm 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chansonzhang/article/details/124514544

版权

NLP Papers 同时被 3 个专栏收录

54 篇文章 23 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

68 篇文章 2 订阅

订阅专栏

60 篇文章 1 订阅

订阅专栏

该研究通过集成多种预训练的句子编码器，提出句子元嵌入方法，解决了无监督语义文本相似度（STS）任务。实验表明，这些元嵌入在STS Benchmark和STS12-16上超越了单源系统，提升了3.7%到6.4%的Pearson相关系数。方法包括基于GCCA、SVD和自编码器的集成，其中GCCA表现最佳，成为无监督STS的新SOTA。

摘要由CSDN通过智能技术生成

Abstract

我们通过将不同的预训练 sentence encoders 集成到 sentence meta-embeddings 中，来解决无监督 STS 任务。
我们尝试在句子级别上应用、扩展和评估了来自 word embedding 文献的 meta-embedding 方法，包括:
- dimensionality reduction
- generalized Canonical Correlation Analysis
- cross-view auto-encoders.

我们的 sentence meta-embeddings 方法在 STS Benchmark 以及 STS12–STS16 上成为了新的无监督 SOTA，相比于 single-source systems 带来了 3.7% 到 6.4% 的 Pearson 相关系数提升。

1 Introduction

在词嵌入上应用元学习的效果超过了 single-source 词嵌入的效果，其原因可能是融合了各个组成部分的互补优势。

最近的研究热点是预训练通用的句编码器，即将句子的各种不同的语言特征编码进一个固定大小的向量。由于各种句编码器在网络结构和训练数据上各有不同，我们假设他们是可以优势互补的因而可以从 meta-embedding 中受益。

了解本专栏

超级会员免费看

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Sentence Meta-Embeddings for Unsupervised Semantic Textual Similarity

将预训练 sentence encoders 集成到 sentence meta-embeddings 中，解决无监督 STS 任务。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。