手把手教你多种方式体验Qwen2最强开源大模型

Funny_AI_LAB

已于 2024-07-03 23:20:07 修改

阅读量8.3k

点赞数 17

分类专栏：计算机视觉文章标签：开源云计算阿里云人工智能大模型

于 2024-07-03 23:18:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sexy19910923/article/details/140164232

版权

前几天看到新闻openai将开始限制来自非支持国家和地区的API流量，目前OpenAI的API已向161个国家和地区开放，中国内地和中国香港未包含其中。这对于中国使用openai的用户来说算是彻底断了念想，好在国内大模型近些日来迅猛发展，前段时间刚开源的阿里Qwen2蝉联开源大模型榜首，已经和chatgpt不相上下，这篇文章主要介绍如何多方式体验Qwen2。

1.Qwen2介绍+在线使用

qwen2官网介绍：https://qwenlm.github.io/zh/blog/qwen2/

在线体验：

主要亮点：

5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B；
在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；
多个评测基准上的领先表现；
代码和数学能力显著提升；
增大了上下文长度支持，最高达到128K tokens（Qwen2-72B-Instruct）。

在2个评估数据集上进行验证：

M-MMLU：来自Okapi的多语言常识理解数据集

MGSM：包含德、英、西、法、日、俄、泰、中和孟在内的数学评测。

在这里插入图片描述结果均反映了Qwen2指令微调模型突出的多语言能力。

优化点：

通义千问技术博客披露，在Qwen1.5系列中，只有32B和110B的模型使用了GQA。这一次，所有尺寸的模型都使用了GQA，以便让用户体验到GQA带来的推理加速和显存占用降低的优势。针对小模型，由于embedding参数量较大，研发团队使用了tie embedding的方法让输入和输出层共享参数，增加非embedding参数的占比。

上下文长度方面，所有的预训练模型均在32K tokens的数据上进行训练，研发团队发现其在128K tokens时依然能在PPL评测中取得不错的表现。然而，对指令微调模型而言，除PPL评测之外还需要进行大海捞针等长序列理解实验。在使用YARN这类方法时，Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

目前在多项权威榜单和测评中，Qwen2-72B成为开源模型排行榜第一名。

2. 本地部署

本地部署：使用 llama.cpp 和 Ollama 等框架在 CPU 和 GPU 上本地运行 Qwen 模型的说明。
Docker：预先构建的 Docker 镜像可用于简化部署。
ModelScope：推荐中国大陆用户使用，支持下载检查点并高效运行模型。
推理框架：使用 vLLM 和 SGLang 部署 Qwen 模型进行大规模推理的示例。

2.1 Ollama 使用

Ollama下载：https://ollama.com/download
在这里插入图片描述

官网下载安装成功，打开终端安装：ollama run qwen2:7b
在这里插入图片描述

安装成功，测试使用，利用qwen2-7B写一个冒泡排序，速度感人
在这里插入图片描述

2.2 vllm部署

参考：deplo

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。