最新开源：英伟达Nemotron-4 340B，哔哩哔哩Index-1.9B，谷歌RecurrentGemma-9B...

本文链接：https://blog.csdn.net/u012744245/article/details/139774554

文章目录

1. 英伟达开源Nemotron-4 340B

当地时间6月14日，英伟达开源 Nemotron-4 340B 系列模型，包括三个模型：基础模型Nemotron-4-340B-Base，指令模型Nemotron-4-340B-Instruct，以及奖励模型Nemotron-4-340B-Reward，具有3400亿参数，在NVIDIA开放模型许可协议下开放访问，允许分发、修改和使用这些模型及其输出。

Nemotron-4 340B 使用合成数据，性能超越 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，可与 GPT-4 竞争。

在这里插入图片描述

Nemotron-4 340B 采用了 Transformer 架构，并引入了旋转位置嵌入（RoPE）优化算法和MOE（Mixture of Experts）架构。这些技术的结合使得 Nemotron-4 340B 在常识推理任务以及BBH等主流基准上实现了行业最高的准确率，并且在MMLU代码基准上也具备较高竞争力。

在这里插入图片描述

目前 Nemotron-4 340B 的模型以及技术报告已经发布：
模型下载：https://huggingface.co/nvidia/Nemotron-4-340B-Base
代码下载：https://github.com/NVIDIA/Megatron-LM
技术报告：https://research.nvidia.com/publication/2024-06_nemotron-4-340b

Nemotron-4-340B-Instruct 的一个重要特性是用于对齐训练的数据集包含98%的合成数据，所以可以用于合成数据。配合 Nemotron-4-340B-Reward 模型，就可以用于生成训练小模型的数据。

在这里插入图片描述

2. 哔哩哔哩开源轻量级模型 Index-1.9B

bilibili开源轻量级模型Index-1.9B，具有19亿参数，在2.8T中英文为主的语料上预训练，该系列模型在多个评测基准上与同级别模型相媲美。Index-1.9B系列包括基座模型、对照组模型、对话模型和角色扮演模型等。

在这里插入图片描述

图：bilibili轻量级模型Index-1.9B基本性能

本次开源的 Index-1.9B 系列包含以下模型：

Index-1.9B base : 基座模型，具有 19亿非词嵌入参数量，在 2.8T 中英文为主的语料上预训练，多个评测基准上与同级别模型比处于领先。
Index-1.9B pure : 基座模型的对照组，与base具有相同的参数和训练策略，不同之处在于团队严格过滤了该版本语料中所有指令相关的数据，以此来验证指令对benchmark的影响。
Index-1.9B chat : 基于 Index-1.9B base 通过SFT和DPO对齐后的对话模型，团队发现由于预训练中引入了较多定向清洗对话类语料，聊天的趣味性明显更强。
Index-1.9B character : 角色扮演模型，在SFT和DPO的基础上引入了RAG来实现fewshots角色扮演定制。

目前，Index-1.9B 已在 GitHub 和 HuggingFace 上开源。

查看详细技术报告：https://github.com/bilibili/Index-1.9B
HuggingFace地址：https://huggingface.co/IndexTeam

在这里插入图片描述

图：bilibili轻量级模型Index-1.9B输出示例

3. 微软开源混合模型 Samba

在当今人工智能领域，语言模型的上下文限制一直是挑战之一。然而，Samba 打破了这一局限性，引领我们进入无界限上下文语言处理的新时代。

微软开源混合模型 Samba，具有无限的上下文长度。它的架构非常简单：Samba = Mamba + MLP + 滑动窗口注意力 + MLP层级堆叠。

最大的模型 Samba-3.8B 在 Phi3 数据集上训练了3.2万亿个token，大幅超越 Phi3-mini 在主要基准测试（如MMLU, GSM8K和HumanEval）上的表现。

在这里插入图片描述

Samba 还能够通过最小的指令调整实现完美的长上下文检索能力，同时保持其对序列长度的线性复杂度。这种能力使得 Samba-3.8B-instruct 在下游任务如长上下文摘要上表现出色。

在这里插入图片描述

项目地址：https://github.com/microsoft/Samba/

4. 谷歌开源 RecurrentGemma-9B，性能与Gemma相同

谷歌开源 RecurrentGemma-9B，包括 Base (9B) 和 Instruct (9B-IT) 版本，性能与 Gemma 相同，但延迟降低了 25% 以上，每秒的 token 数量提高了 6-7 倍。RecurrentGemma 是谷歌开源的全新架构模型，采用了谷歌自研的Griffin架构，具备高效的长序列处理能力、高推理效率、出色的下游任务表现，以及有效管理训练成本。

与 Gemma 一样，RecurrentGemma 非常适合各种文本生成任务，包括问答、摘要和推理。由于其新颖的架构，RecurrentGemma 所需的内存比 Gemma 更少，并且在生成长序列时可以实现更快的推理。

项目地址：https://huggingface.co/google/recurrentgemma-9b