Qwen（通义千问）模型

彬彬侠

已于 2025-03-07 16:22:12 修改

阅读量4.4k

点赞数 26

分类专栏：大模型文章标签： Qwen 通义千问阿里云 Hugging Face transformers

于 2025-03-07 15:55:20 首次发布

本文链接：https://blog.csdn.net/u013172930/article/details/146097755

版权

大模型专栏收录该内容

99 篇文章

订阅专栏

Qwen（通义千问）模型

Qwen（通义千问） 是由 阿里云 开发并于2023年开始发布的大型语言模型（LLM）系列，旨在提供 高效、开源、可商用的大语言模型，支持 文本、代码、数学推理 等任务，并在多个基准测试中表现出色。

官方网站：通义千问
GitHub 开源地址：Qwen on Hugging Face

1. 为什么需要 Qwen？

在 ChatGPT（GPT-4）和 Gemini 等闭源模型主导的 AI 时代，企业和研究人员 难以获取高质量的大模型 进行定制化训练。

Qwen 由阿里云发布，采用开源模式，目标是：

提供中国最强的开源大模型，与 GPT-4、Claude 竞争。
支持中文优化，适用于企业智能客服、代码生成等应用。
允许本地部署，降低 API 依赖，适合隐私敏感应用。

Qwen 是中国领先的开源 LLM，支持企业级应用
相比 GPT-4，Qwen 更适合中文场景，提供本地部署选项

2. Qwen 主要版本

阿里云发布了 多个版本的 Qwen，包括 基座模型、代码模型、对话模型。

模型名称	发布时间	参数规模	优化点	适用场景
Qwen-7B	2023-08	70 亿	高效推理，轻量级	适合本地部署
Qwen-14B	2023-08	140 亿	中文增强	适合文本生成
Qwen-72B	2023-09	720 亿	提升多任务能力	适合通用 NLP
Qwen1.5-110B	2024-05	1100 亿	强化数学、代码	高端 AI 应用
Qwen2.5	2024-11	200B+	增强推理、知识整合	GPT-4 级别
Qwen1.5-Code	2024-05	70B	代码专用优化	编程助手
Qwen1.5-Chat	2024-06	110B	强化对话能力	智能客服

Qwen-7B~14B 适合消费级 GPU（RTX 4090）运行
Qwen-72B 及以上需要 A100/H100 级 GPU
Qwen1.5-Code 适用于代码生成，Qwen-Chat 适用于对话任务

3. Qwen 的技术优势

Qwen 在多个 NLP 任务上表现出色，其核心优势包括：

3.1 高效 Transformer 架构

采用 Transformer 模型，优化推理速度。
比 LLaMA 2 更低计算成本，适用于 本地部署。

3.2 多语言支持

特别优化中文 NLP 任务，适用于 企业智能客服、文档分析。
支持 20+ 语言，包括英语、日语、法语、德语等。

3.3 强大的数学和代码能力

Qwen1.5-110B 在数学任务上超越 GPT-3.5。
Qwen1.5-Code 可用于 Python、C++、Java 代码生成和优化。

3.4 本地部署支持

相比 ChatGPT API，Qwen 可以在企业服务器上运行，保护数据隐私。
提供开源权重，允许微调和二次开发。
Qwen 适用于国产 AI 生态，支持本地部署和二次开发
相比 GPT-4，Qwen 对中文、数学、代码优化更强

4. Qwen 在 Hugging Face `transformers` 库中的使用

Qwen 可以通过 Hugging Face 直接加载并使用。

4.1 安装 `transformers`

pip install transformers

4.2 加载 Qwen 分词器

from transformers import AutoTokenizer

# 加载 Qwen 预训练的分词器
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B")

# 对文本进行分词
text = "人工智能的未来是什么？"
tokens = tokenizer(text, return_tensors="pt")

print(tokens)

4.3 加载 Qwen 并进行文本生成

from transformers import AutoModelForCausalLM

# 加载 Qwen 预训练模型
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B")

# 生成文本
outputs = model.generate(**tokens, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

5. Qwen 的应用场景

Qwen 适用于 各种 NLP 任务：

智能客服（企业客服、AI 机器人）
文本生成（新闻、小说、论文写作）
对话系统（Chatbot）
问答系统（QA）
代码生成
机器翻译
自动摘要
数学推理
相比 GPT-4，Qwen 更适合中文 NLP 任务
相比 LLaMA 2，Qwen 提供更好的代码、数学能力

6. Qwen 与其他 LLM 的对比

模型	开源/闭源	参数量	优化点	适用任务
GPT-4	闭源	未公开	生成能力最强	商业 AI
Qwen1.5-110B	开源	110B	强化数学、代码	企业 AI
LLaMA 2-70B	开源	70B	低计算成本	本地部署
DeepSeek-67B	开源	67B	代码优化	编程 AI
Gemini 1.5 Pro	闭源	未公开	多模态能力	AI 生成内容