备受市场期待的开源模型通义千问Qwen2系列终于在近日揭开了神秘面纱!今天就带大家一起了解一下~
01、模型介绍
Qwen2是阿里云通义千问团队开源的新一代大语言模型,推出了5个尺寸的预训练和指令微调模型,其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B.A14B和Qwen2-72B。小尺寸模型可以部署在耳机、手机等端侧设备,大尺寸模型能够用于企业界、科研级的场景。
自发布以来,Qwen系列开源模型的累计下载量突破了1600万,涌现了超过1500款基于Qwen二次开发的模型和应用。来自开发者的“催更”也在倒逼阿里云更紧迫的去迭代模型能力。
02、亮点特性
· 多语言支持,通吃全球
Qwen2不仅在中文和英语上有所提升,还加入了27种语言的数据。无论你用哪种语言,Qwen2都能对答如流。
· 超长上下文处理能力
Qwen2在多个评测基准上表现突出,特别是 Qwen2-72B-Instruct,支持128K tokens的上下文长度,就像读一本《战争与和平》那么长的小说,Qwen2也能毫不费力地理解和处理。
· GQA技术普及
Qwen2系列全家齐上阵,首次在所有尺寸的模型中使用GQA技术,让AI的推理速度更快,显存占用更低。
· 评测结果显著提升
Qwen2相比Qwen1.5有了质的飞跃,尤其是 Qwen2-72B,在自然语言理解、知识、代码、数学及多语言等多项能力上,全面碾压对手。
03、如何使用Qwen2?
目前,开发者们可以在魔搭ModelScope等开源社区体验并下载Qwen2,或者通过阿里云百炼平台调用模型API,普通用户可在魔搭或Compass Arena等平台直接体验模型。方式任选、丰俭由人。
· Qwen2项目博客:
https://qwenlm.github.io/zh/blog/qwen2
· 在线体验地址:
https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct
· GitHub地址:
https://github.com/QwenLM/Qwen2
· Hugging Face模型地址:
https://huggingface.co/Qwen
· ModelScope模型地址:
https://modelscope.cn/organization/qwen