Qwen3上新,Qwen3-Embedding模型全新登场!

一、Qwen3-Embedding 概述

Qwen3-Embedding 是阿里云通义千问团队推出的专用文本嵌入模型,基于 Qwen 系列大模型开发,目标是生成高质量、可用于语义检索、RAG(检索增强生成)和相似度匹配的向量表示。

GitHub - QwenLM/Qwen3-Embedding

主要版本模型

模型名称

维度

结构

支持语言

是否开源

Qwen/Qwen-Embedding

1024

基于 Qwen3 指令微调

中文、英文(多语言)

Qwen/Qwen-Embedding-Chinese

512/1024

优化中文表现

中文

Qwen/Qwen-Embedding-Mini

384

轻量版,适合端侧

中文、英文


二、模型优势与特点

✅ 优点

  1. 多语言支持:支持中英文,主打中文语义表现。

  2. 指令微调:借助 Qwen3 指令微调框架,对用户问题与文档对建模更有效。

  3. 语义一致性强:在 OpenCompass、MTEB(Multilingual Text Embedding Benchmark)等评测中表现优秀。

  4. 开源可商用:模型权重完全开源,适合落地应用。

  5. 适配向量数据库:输出向量兼容 FAISS、Milvus、Weaviate 等数据库。

  6. 支持长文本:可处理较长输入(上下文窗口 4K+ token,取决于具体版本)。

❌ 缺点

  1. 仍较大:标准版维度为 1024,模型体积较大(不适合端侧轻量化部署)。

  2. 推理速度慢于 SOTA 小模型:如 BGE-small、MiniLM 等轻量 embedding 模型。

  3. 英语语义表现略逊:相对英文专用 embedding 模型如 E5GTE 表现略低。

  4. GPU资源要求高:标准版在部署时至少需要 6GB 显存。


三、性能参数与评测指标

✅ 维度与参数量

模型名称

维度

参数量

Token长度

推理设备推荐

Qwen-Embedding

1024

~1B

4096+

A10、3090

Qwen-Embedding-Mini

384

~100M

2048

消费级GPU/CPU

📊 性能评测(来自 MTEB 中文任务子集)

评测任务

Qwen-Embedding

BGE-Large

GTE-Large

相似度匹配

✅ 91.2

88.4

89.0

分类

✅ 92.5

91.1

90.6

检索(retrieval)

✅ 84.6

82.2

83.1

多语言任务

✅ 优

中等偏上


四、部署与使用详细教程

✅ 1. Hugging Face 加载方式(Python)

pip install -U transformers accelerate sentence-transformers
from sentence_transformers import SentenceTransformermodel = SentenceTransformer("Qwen/Qwen-Embedding")texts = ["通义千问是一个强大的大语言模型", "ChatGPT 是 AI 聊天助手"]embeddings = model.encode(texts)print(embeddings.shape)  # 输出为 (2, 1024)

或使用 transformers 原生方式:

from transformers import AutoTokenizer, AutoModelimport torchtokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-Embedding")model = AutoModel.from_pretrained("Qwen/Qwen-Embedding")inputs = tokenizer(["Qwen3是阿里推出的模型", "ChatGPT是OpenAI推出的模型"], padding=True, return_tensors="pt")with torch.no_grad():    outputs = model(**inputs)    embeddings = outputs.last_hidden_state.mean(dim=1)

✅ 2. 本地部署(推理部署)

使用 Hugging Face 模型缓存或下载权重​​​​​​​
git lfs installgit clone https://huggingface.co/Qwen/Qwen-Embedding

使用 FastAPI 或 Gradio 封装接口​​​​​​​

from fastapi import FastAPIfrom pydantic import BaseModelfrom sentence_transformers import SentenceTransformermodel = SentenceTransformer("Qwen/Qwen-Embedding")app = FastAPI()class InputText(BaseModel):    text: str@app.post("/embed")def embed_text(data: InputText):    embedding = model.encode(data.text)    return {"embedding": embedding.tolist()}

✅ 3. 向量数据库集成示例(以 FAISS 为例)​​​​​​​

import faissimport numpy as npdocs = ["千问是中文大模型", "GPT是英文大模型"]doc_embeds = model.encode(docs)dim = doc_embeds.shape[1]index = faiss.IndexFlatL2(dim)index.add(np.array(doc_embeds))query = "中文语义模型"query_embed = model.encode([query])distances, indices = index.search(np.array(query_embed), k=1)print(indices)  # 返回最近的文档索引

五、适用场景推荐

场景类型

推荐理由

✅ 中文RAG系统

语义表现优,适配 Qwen 系列

✅ 多轮对话检索

支持长文本,嵌入稳定

✅ 法律/医疗文档搜索

高精度匹配

✅ 中文问答匹配

优于同类 embedding 模型

✅ 结合向量数据库使用

与 FAISS/Milvus 等兼容


六、与其他模型对比分析

模型名称

维度

中文能力

英文能力

推理速度

模型大小

适配RAG

Qwen-Embedding

1024

⭐⭐⭐⭐⭐

⭐⭐⭐

中等

✅ 非常适合

BGE-Large

1024

⭐⭐⭐⭐

⭐⭐

GTE-Large

768

⭐⭐

⭐⭐⭐⭐

MiniLM

384

⭐⭐⭐⭐

非常快

非常小

❌(精度差)


七、总结

Qwen3-Embedding 是目前中文语义向量生成的强力选手,在检索增强生成(RAG)、多轮问答匹配等任务中表现优异,尤其在中英文混合场景中有显著优势。适合部署在企业级语义搜索平台,也可用于轻量文本推荐系统。

如果你需要 RAG系统中文嵌入模型首选,强烈建议优先考虑 Qwen3-Embedding。

我们该怎样系统的去转行学习大模型 ?

很多想入行大模型的人苦于现在网上的大模型老课程老教材,学也不是不学也不是,基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近100余次后,终于把整个AI大模型的学习门槛,降到了最低!

在这个版本当中:

第一不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料 分享出来: 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

一、大模型经典书籍(免费分享)

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

二、640套大模型报告(免费分享)

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、大模型系列视频教程(免费分享)

在这里插入图片描述

四、2025最新大模型学习路线(免费分享)

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调。

L5阶段:专题集丨特训篇 【录播课】

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方二维码,免费领取

在 Xinference 平台上部署 Qwen3-Embedding-0.6B 模型,可以按照以下步骤进行操作: ### 1. 准备环境 确保你已经安装并配置好 Xinference 的运行环境。Xinference 支持多种部署方式,包括本地部署、Docker 部署和 Kubernetes 部署。你可以通过以下命令安装 Xinference: ```bash pip install xinference ``` 启动 Xinference 服务: ```bash xinference-local ``` 这将启动一个本地的 Xinference 服务,默认监听在 `http://localhost:9997`。 ### 2. 下载 Qwen3-Embedding-0.6B 模型 你需要从阿里云 ModelScope 平台下载 Qwen3-Embedding-0.6B 模型文件。访问 [ModelScope](https://modelscope.cn/),搜索 `Qwen3-Embedding-0.6B`,并下载模型文件。 下载完成后,将模型文件解压到本地目录,例如 `/path/to/qwen3-embedding-0.6b`。 ### 3. 在 Xinference 中注册模型 使用 Xinference 的 CLI 或 API 接口注册模型。以下是使用 CLI 的方式: ```bash xinference register-model --model-name qwen3-embedding-0.6b --model-path /path/to/qwen3-embedding-0.6b --model-type embedding ``` 该命令将模型注册到 Xinference 中,并指定模型类型为 `embedding`。 ### 4. 启动模型服务 注册完成后,启动模型服务: ```bash xinference launch-model --model-name qwen3-embedding-0.6b ``` 该命令将启动 Qwen3-Embedding-0.6B 模型服务,并监听默认端口。 ### 5. 调用模型服务 模型服务启动后,可以通过 HTTP API 或 Python SDK 调用模型。以下是一个使用 Python SDK 的示例: ```python from xinference.client import Client client = Client("http://localhost:9997") model = client.get_model("qwen3-embedding-0.6b") # 输入文本 text = "这是一个测试句子。" # 获取嵌入向量 embedding = model.embed(text) print(embedding) ``` 该代码将调用 Qwen3-Embedding-0.6B 模型,生成输入文本的嵌入向量。 ### 注意事项 - 确保你的硬件配置满足模型的运行需求,尤其是 GPU 内存。 - 如果使用 Docker 部署,可以参考 Xinference 的官方文档进行容器化部署。 - 如果需要更高的性能,可以考虑使用分布式部署或 GPU 加速。 通过以上步骤,你可以在 Xinference 平台上成功部署并调用 Qwen3-Embedding-0.6B 模型,用于构建高效的向量化检索系统[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值