超越标注：合成数据引领下的文本嵌入技术革新

AI智语狂想

已于 2024-08-04 19:42:13 修改

阅读量594

点赞数 25

分类专栏： LLM论文日更文章标签：语言模型人工智能自然语言处理 nlp 深度学习

于 2024-08-04 19:41:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_59084968/article/details/140906363

版权

论文：https://arxiv.org/pdf/2401.00368
代码：https://github.com/microsoft/unilm/tree/master/e5
机构：微软
领域：嵌入模型
发表：BAAI 2024

这篇论文的标题是《Improving Text Embeddings with Large Language Models》，由微软公司的Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei等作者撰写。论文介绍了一种新颖且简单的方法，使用大型语言模型（Large Language Models, LLMs）生成的合成数据，以获得高质量的文本嵌入（text embeddings），并且只需要不到1000步的训练即可完成。这种方法与现有方法相比，不需要构建复杂的多阶段预训练流程，也不依赖于手动收集的数据集，这些手动收集的数据集通常受到任务多样性和语言覆盖的限制。

摘要（Abstract）:

论文提出了一种使用合成数据和少于1k训练步骤获得高质量文本嵌入的方法。
该方法不依赖于多阶段中间预训练和少量标记数据集的微调。
使用专有的LLMs为93种语言生成了数十万个文本嵌入任务的多样化合成数据。
通过标准对比损失对开源的仅解码器LLMs进行微调。
实验表明，该方法在没有使用任何标记数据的情况下，在竞争性文本嵌入基准测试中取得了强大的性能。
当使用合成数据和标记数据的混合进行微调时，模型在BEIR和MTEB基准测试上取得了新的最先进结果。

引言（Introduction）:

文本嵌入是自然语言的向量表示，广泛应用于各种自然语言处理（NLP）任务。

最低0.47元/天解锁文章

关注

25
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
超越标注：合成数据引领下的文本嵌入技术革新

Doc2query（Nogueira 等人，2019）、InPars（Bonifacio 等人，2022）和 Promptagator（Dai 等人，2022）生成未标记文档的综合查询，然后将其用于文档扩展或模型训练。SGPT (Muennighoff, 2022)、GTR (Ni et al., 2022b) 和 Udever (Zhang et al., 2023a) 凭经验证明了文本嵌入的缩放规律，但它们的性能仍然落后于 E5 (Wang等人，2022b）和 BGE（Xiao 等人，2023）。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI智语狂想 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。