6月25日,OpenAI向中国用户发布邮件称,自7月9日起将正式封锁来自中国、朝鲜、俄罗斯等非支持国家和地区的 API 流量,终止对中国用户提供 API 服务,也就是说咱们使用chat gpt的门槛更高了,哪怕会科学上网。
面对这样的技术封锁,阿里云百炼带来了一波新的惊喜,第一时间宣布将为OpenAI API用户提供最具性价比的中国大模型替代方案,并为中国开发者提供2200万免费tokens和专属迁移服务。也就是说,Open AI最好的国产替代品来了!!!
它,叫通义千问(Qwen),是阿里云自主研发的超大规模语言模型。6月7日凌晨0点,阿里云通义千问深夜发布技术博文,推出全球性能最强的开源模型Qwen2-72B,性能超过美国最强的开源模型Llama3-70B。两小时后,全球最大开源社区Hugging Face的联合创始人兼CEO Clem宣布,Qwen2-72B冲上HuggingFace 开源大模型榜单。
时隔20天,通义千问登顶全球最权威的开源模型测评榜单Open LLM Leaderboard,力压 Llama-3、Mixtral、Phi-3等强大对手,卫冕全球开源大模型第一名。面对这一测评结果,Clem发文表示:“Qwen2是王者,中国在全球开源大模型领域处于领导地位。”可见通义千问实力之强悍!
从排行榜数据我们可以看到,Meta开源的Llama-3-70B指令微调版本位列第2;阿里的Qwen2-72B基础版本排名第3;Mistralai的Mixtral-8x22B指令微调版本排名第4;第9和第10名,全部都是阿里之前开源的Qwen1.5基础和Chat版本。
全新排行榜的前10名竞争非常激烈,很多都是当过之前排行榜第一名的高手,相当于大模型界的“华山论剑”。阿里开源的4款大模型傲视群雄,充分说明中国对全球开源大模型的重要贡献以及领导地位。
这次的榜单是v2版本,Clem称,这次测试使用了300块H100对目前全球100多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估,也就是说这次的测试集更难、更好、更快、更强,对模型的考察更有说服力。也就是说,通义千问的能力毋庸置疑!!!
通义千问在国外也颇受好评,曾有海外开发者发布过ElyzaTasks100性能评测,Qwen2-72B的指令微调版本是性能最高的开源大模型,仅次于OpenAI的GPT-4o,高于谷歌的Gemini1.5Pro。
国内有关机构也在进行相应的评测。6月27日,上海人工智能实验室大模型测评榜单Compass Arena公布最新评测结果,阿里通义千问Qwen2-72B得分仅次于GPT-4o,以1分之差排名第二,成为排名最高的开源大模型。
面对国外的技术垄断和知识封锁,阿里带给我们的惊喜犹如天降甘霖,通义Qwen-2 72B实力不容小觑,请相信国产大模型,通义Qwen-2 72B必将不负众望,成为新的王者!
通义千问Qwen2-72B开源地址:
https://huggingface.co/Qwen/Qwen2-72B-Instruct