一周SOTA:Meta 发布 Llama 3;Mistral AI 开源 Mixtral 8x22B;阿里开源代码模型CodeQwen1.5;面壁 MiniCPM 2.0 发布

21 篇文章 1 订阅
21 篇文章 1 订阅

一周SOTA:Meta 发布 Llama 3;Mistral AI 开源 Mixtral 8x22B;阿里开源代码模型CodeQwen1.5;面壁 MiniCPM 2.0 发布

1.Meta 震撼发布 Llama 3,8B、70B模型达同等参数规模最佳

Meta 正式开源Llama 3,发布8B、70B参数大小的基础模型和指令微调模型版本,是同等规模中的最佳模型。

Llama 3 主要亮点:

  • 基于纯解码器Transformer架构,超过 15T tokens 训练,这些tokens都是从公开来源收集的,是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。
  • 支持8K长文本,改进的tokenizer 具有128K token的词汇量,可实现更好的性能。
  • 为提高Llama 了模型的推理效率,采用分组查询注意力 (GQA)。
  • 新能力范畴,包括增强的推理和代码能力。
  • 训练效率比 Llama 2 高 3 倍。
  • 安全性有明显进步,配备了Llama Guard 2、Code Shield等新一代的安全工具。

此外,Llama 3 最大的模型规模超过400B,虽然该模型正在训练中,但 Meta 表示未来将发布多个具有新功能的模型,包括多模态、多语言对话能力、更长的上下文窗口和更强大的性能,并将推出新的模型尺寸版本和公开 Llama 3 的研究论文。

相比前两代,Llama 3 在训练成本、训练时间、模型架构等多个方面有了很大的升级。

  1. 上下文长度:Llama系列的上下文长度一直在增长。
    在这里插入图片描述

  2. 词汇表:Llama3模型的词汇表大幅提高。更大的词汇表意味着更强的语义表达能力。

在这里插入图片描述

  1. 训练数据:Llama3模型的训练数据大幅增长。

在这里插入图片描述

  1. 训练时长:Llama3模型的训练时长大幅增加。

在这里插入图片描述

  1. 评测基准:Llama3的评测基准大幅提高。

在这里插入图片描述

2.Mistral AI开源全球最大的混合专家大模型 Mixtral 8x22B

4月10日,法国AI初创公司 Mistral AI 发布了 Mixtral 8x22B 的磁力链接,一周后,正式官宣开源全球最大的混合专家大模型 Mixtral 8x22B。在 HuggingFace 上上架了两个不同的版本,一个是预训练基础模型Mixtral 8x22B,另一个则是指令优化的版本 Mixtral-8x22B-Instruct。

Mixtral 8x22B 是Mistral AI最近开源的一款超大模型,成为迄今为止第二大开源模型,仅次于xAl推出的参数量为 3140 亿的Grok-1。

Mixtral 8x22B 模型是一个稀疏混合专家大模型(sparse Mixture-of-Experts,SMoE),总参数量1410亿,每次推理激活其中的390亿参数。

Mixtral-8x22B 的主要特点:

  • 支持多语言,在英语、法语、意大利语、德语和西班牙语上非常流程(实际测试也能支持基本的中文);
  • 数学推理和代码能力大幅提升;
  • 天然支持function calling特性;
  • 支持64K超长上下文,允许从大量文档中调用信息;
  • Apache2.0开源协议,真正的开源。

下图是官方展示的对比结果:

在这里插入图片描述

图1:性能(MMLU)与推理预算权衡(活动参数数量)的度量

其中纵坐标是MMLU评分,横坐标是激活的参数数量,左上角区域意味着可以较少的参数获得更好的性能。

与相应规模的开源模型对比结果如下:

在广泛常识&推理和知识基准上,Mixtral 8x22B 基本上超越目前领先顶级的开源模型。除了部分评测不如Command R+外,Mixtral 8x22B 模型在其它结果都是大幅领先的。

在这里插入图片描述

Mixtral 8x22B 模型的多语言能力很强,在法语、德语、西班牙语等方面非常不错。

在这里插入图片描述

与其他开源模型相比,Mixtral 8x22B 在编程和数学任务中表现最佳。而 Mixtral 8x22B 的指令微调版展示了更好的数学性能,在 GSM8K maj@8 上得分为90.8%,在 Math maj@4 上得分为44.6%。

在这里插入图片描述

3.阿里开源代码模型CodeQwen1.5,支持92种编程语言

CodeQwen1.5 由阿里巴巴达摩院研发的开源代码生成模型,有两个模型CodeQwen1.5-7B和CodeQwen1.5-7B-Chat,基于Qwen1.5系列语言模型,在大量代码数据集上进行预训练,拥有强大的代码生成能力。

在这里插入图片描述

CodeQwen1.5 支持92种编程语言,从常见的Python、Java、JavaScript到更专业的语言如Rust和Go。

CodeQwen1.5 在代码生成、长序列建模、代码修改和SQL处理等多个方面展现了卓越性能,显著提高了开发效率并简化了软件开发流程。

在基准测试中,CodeQwen1.5 在HumanEval、MBPP和LiveCodeBench上表现出色,尤其在长序列处理能力上,通过精心构造的数据预训练,能够有效处理复杂的长代码序列。

HumanEval是一个用于评估大模型编程性能的基准测试,HumanEval 包括各种不同的编程问题,如算法数据结构、字符串处理、数学问题等。这个数据集由OpenAI创建,是当前评估大模型编程性能最主要的基准之一。
MBPP是由Google Research创建的另一个大模型编程能力评测基准,包含1000个唯一的编程问题,覆盖了各种类型和难度的问题,从简单的字符串操作到复杂的算法问题。
LiveCodeBench,一个对 LLM 代码能力进行更全面、随着时间动态更新的评估。LiveCodeBench 不断地从 LeetCode、AtCoder 和 CodeForces 三个竞赛平台中收集问题来测试模型的泛化能力。

在这里插入图片描述

可以看到,基座模型版本CodeQwen1.5-7B在同等参数规模的模型上得分最高,而CodeQwen1.5-7B-Chat版本的HumanEval得分甚至超过了GPT-4早期版本,比GPT-4-Turbo(2023年11月版本)略低。

上述的评估主要围绕 Python 能力,但 CodeQwen1.5 不仅仅是 Python 专家,还是一个多编程语言专家。在 MultiPL-E 的 8 种主流语言(Python、C++、Java、PHP、TypeScript、C#、Bash,JavaScript)上对 CodeQwen1.5 进行全面评估,结果证明了 CodeQwen1.5 强大的编程能力。

在这里插入图片描述

CodeQwen1.5 最长支持 64K 的上下文输入,大大提高编程大模型的应用水平。下图是Qwen团队收集的GitHub一些高质量代码仓测试的Qwen1.5-7B的困惑度指标结果。

在这里插入图片描述

大模型的困惑度(Perplexity)是评估语言模型性能的一种指标,用于量化模型对样本数据的处理能力。困惑度的计算基于模型对测试集中单词序列的概率估计。困惑度指标越低越好。

随着输入序列的增长 CodeQwen1.5-7B 依然能保持下降,说明在长序列上依然效果不错。

CodeQwen1.5 是优秀的代码修改者,在关注 CodeEditorBench,涉及到 Debug、Translate、Switch、Polish 等四个方面的代码修改能力,结果表明 CodeQwen1.5 在 7B 规模上达到了最好的效果。

在这里插入图片描述

CodeQwen1.5 具备出色的SQL专家能力,能够通过自然语言与数据库高效互动。这大大降低了非编程人员使用SQL的门槛,使得数据库查询和管理变得更加简单直观。

在这里插入图片描述

4.面壁 MiniCPM 2.0 发布,新一代旗舰端侧多模态大模型

MiniCPM-V2.0 是由面壁智能与清华大学自然语言处理实验室联合推出的一款端侧多模态大模型。该模型基于 MiniCPM 2.4B 和 SigLip-400M 构建,共拥有2.8B参数,具备行业领先的光学字符识别 (OCR) 能力和多模态理解能力。

在这里插入图片描述

面壁 MiniCPM 2.0系列模型带来了一系列令人惊叹的性能和功能:

  • 端侧最强的多模态模型 MiniCPM-V2.0:OCR 能力显著增强、甚至部分能力比肩 Gemini Pro;
  • 适配更多端侧场景的基座模型 MiniCPM-1.2B:性能超越 Llama2-13B、推理速度达到人类语速近 25 倍,成本下降 60%;
  • 最小的 128K 长文本模型 MiniCPM-2B-128K:可以处理128K(20万字)的文本内容,表现在多维度长文本评测集上表现卓越 ;
  • 性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B:性能平均提高4.5个百分点,推理成本仅为 Gemini-7B 的69.7%。

在这里插入图片描述

图注:MiniCPM-1.2B 延续 以小博大、越级超越 的传统
在这里插入图片描述

图注:MiniCPM-MoE-8x2B 模型性能

在这里插入图片描述

图注:长文本模型 MiniCPM-2B-128K 模型性能

在评估大模型幻觉的 Object HalBench 榜单中,MiniCPM-V2.0 与 GPT-4V 的表现几乎持平。

在这里插入图片描述

在综合 11 个主流评测基准的 OpenCompass 榜单中,MiniCPM-V2.0 多模态模型通用能力以 55.0 的得分越级超越 Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-VL-34B 等量级更大的模型。

在这里插入图片描述

这些新一代的 MiniCPM 模型在不同领域和场景下展现出强大的性能和功能,推动了大模型在端侧应用的进一步发展。

此外,MiniCPM-V2.0 能够多高效部署在消费级显卡、个人电脑以及移动手机等终端设备。

在这里插入图片描述

参考:
https://qwenlm.github.io/zh/blog/codeqwen1.5/
https://new.qq.com/rain/a/20240411A09HCT00
http://news.sohu.com/a/772764091_121859643

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

  • 12
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值