语义检索-BAAI Embedding语义向量模型深度解析【3】:微调Cross-Encoder以提升语义检索精度

语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而,当前中文世界的高质量语义向量模型仍比较稀缺,且很少开源

BGE 出色的语义表征能力源于两方面要素:1)针对表征的预训练,2)大规模文本对训练。

BGE 在悟道 、Pile 两个大规模语料集上采取了针对表征的预训练算法 RetroMAE :将低掩码率的输入编码为语义向量(Embed),再将高掩码率的输入与语义向量拼接以重建原始输入。这样一来,BGE 得以利用无标签语料实现语言模型基座对语义表征任务的适配。

BGE 针对中文、英文分别构建了多达120M、232M的样本对数据,从而帮助模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀、人工智能

十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值