Qwen3震撼发布:深夜开源文本表征新系列,3种尺寸可选,性能超越商业API,登顶SOTA!

Qwen3深夜上新,Embedding系列全新登场!

它专为文本表征、检索与排序任务设计,旨在将文本(如句子、段落)转换为高质量的向量表示,以便在语义搜索、问答系统、推荐引擎等应用中更有效地处理和理解自然语言。

可用于文档检索、RAG、分类、情感分析、检索等任务。

它在Qwen3基础模型上训练而来,充分发挥Qwen3的多语言优势。

一共有0.6B/4B/8B三种尺寸,8B版本在MTEB多语言Leaderboard榜单中排名第一,性能超越一众商业API服务。

有人就表示,0.6B版本不就是为了手机RAG准备的吗?期待苹果WWDC了。

今年阿里巴巴确认与苹果合作,承接Apple Intelligenc在中国的服务。

目前,该系列模型已在Hugging Face、ModelScope和GitHub平台开源,用户也可以直接使用阿里云百炼平台提供的最新的文本向量模型服务。

3种尺寸任意挑选

Qwen3-Embedding系列的主要亮点包括:

  • 泛化强

拿下新SOTA,排序模型在各类文本检索场景中表现出色,显著提升搜索结果相关性。

  • 架构灵活

提供0.6B-8B三种模型配置,开发者可灵活组合表征与排序模块,实现功能扩展。

此外,模型支持以下定制化特性:

    1. 表征维度自定义:允许用户根据实际需求调整表征维度,有效降低应用成本;

    2. 指令适配优化:支持用户自定义指令模板,以提升特定任务、语言或场景下的性能表现。

  • 多语言支持

Qwen3-Embedding系列支持119种语言,涵盖主流自然语言及多种编程语言。

具体来看模型情况,Qwen3-Embedding系列一共包含3款模型:

  • Qwen3-Embedding-8B

  • Qwen3-Embedding-4B

  • Qwen3-Embedding-0.6B

此外还发布了排序模型Reranker系列,评测结果如下图所示:

  • Qwen3-Reranker-0.6B

  • Qwen3-Reranker-4B

  • Qwen3-Reranker-8B

它们在各类文本检索场景中表现出色,可以显著提升搜索结果的相关性。

在模型架构上,Embedding模型和Reranker模型分别采用了双塔结构和单塔结构的设计。

通过LoRA微调,最大限度保留并继承了基础模型的文本理解能力。

具体实现如下:

Embedding模型接收单段文本作为输入,取模型最后一层「EOS」标记对应的隐藏状态向量,作为输入文本的语义表示;

Reranker模型则接收文本对(例如用户查询与候选文档)作为输入,利用单塔结构计算并输出两个文本的相关性得分。

在实际应用中,Embedding模型和Reranker模型常常结合使用,可以兼顾效率和精度。

比如在RAG系统里,Embedding模型和Reranker模型共同构建了检索部分的骨干框架。Embedding模型用于初步检索,Reranker模型用于优化候选结果。

在模型训练上,Qwen3-Embedding系列模型的训练继承了GTE-Qwen系列(此前推出的文本向量模型)的多阶段训练范式,针对具体应用场景进行了深度优化。

Embedding模型的训练过程主要有3阶段:

  • 第一阶段,通过超大规模拖监督数据进行对比学习预训练;

  • 第二阶段,基于高质量标注数据进行监督训练;

  • 第三阶段,通过模型融合策略融合多个候选模型,以提升性能。

Reranker模型的训练中,基于实验验证结果,直接采用高质量标注数据进行监督训练,可以提升训练效率。

Qwen3团队强调,在Embedding模型的第一阶段弱监督训练中,他们构建了多任务适配的Prompt体系。

也就是针对不同任务类型和语言特性,使用Qwen3动态生成了一系列弱监督文本对,突破了传统方法依赖社区论坛或开源数据筛选获取弱监督文本对的局限性,实现了大规模弱监督数据的高效生成。

One More Thing

值得一提的是,苹果WWDC25定档下周二(6月10日)。

中国的Apple Intelligence正是由阿里来提供大模型能力。

巧合的是,在WWDC25同天19:30,阿里将开展Qwen3-Embedding技术直播。

感兴趣的同学可以在官号蹲一下了。

ModelScope:

  • https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

  • https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f

Hugging Face:

  • https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f

  • https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea

GitHub:

  • https://github.com/QwenLM/Qwen3-Embedding

技术报告:

  • https://github.com/QwenLM/Qwen3-Embedding/blob/main/qwen3_embedding_technical_report.pdf

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值