谷歌上新！最强开源模型Gemma 2，27B媲美LLaMA3 70B，挑战3140亿Grok-1

快乐小码农

于 2024-07-09 11:30:56 发布

阅读量624

点赞数 19

分类专栏：开源大模型 AI 聊天机器人文章标签：开源大模型谷歌轻量级模型

本文链接：https://blog.csdn.net/u012744245/article/details/140290780

版权

AI 同时被 3 个专栏收录

50 篇文章 8 订阅

订阅专栏

开源大模型

21 篇文章 1 订阅

订阅专栏

聊天机器人

6 篇文章 0 订阅

订阅专栏

文章目录

A领域竞争激烈，GPT-4o 和 Claude 3.5 Sonnet 持续发力，谷歌迅速跟进。

谷歌为应对AI竞争所采取的策略：依靠 Gemini 闭源模型对抗 OpenAI，再通过 Gemma 模型牵制 Meta 的开源模型。Gemma 虽然采用了和 Gemini 同源的技术，但参数规模更为轻量。

在这里插入图片描述

6月28日，在I/O Connect大会上，谷歌发布新一代最强开源模型 Gemma 2，共有 90 亿参数（9B）和 270 亿参数（27B）两种大小。据谷歌介绍，与第一代 Gemma 模型相比，Gemma 2 的性能更高、推理效率更快，并且安全性也更有保障，可在单个NVIDIA H100或TPU主机上运行。

Gemma 2的核心亮点概括来说就是：参数虽小但性能极佳。

性能远超同同等规模模型。27B 模型在性能上能够与比其大两倍的模型相媲美，9B 模型也优于 Meta 的 Llama 3 8B 等相似尺寸的开源模型。

在这里插入图片描述

Gemma 2 的突出优势在于其效率上的提升。27B 模型支持在单个Google Cloud TPU主机、英伟达的A100 80GB Tensor Core GPU或H100 Tensor Core GPU上以全精度运行推理，这能够极大地降低部署AI模型所需的硬件要求和成本。
Gemma 2 优化了跨硬件的超快推理。比如在 Google AI Studio 中尝试全精度的Gemma 2，在CPU上使用量化版本 Gemma.cpp解锁本地性能，或通过 Hugging Face Transformers库在配备英伟达RTX或GeForce RTX的家用电脑上，均可使用。

目前，模型权重已经在HuggingFace上公开。
在这里插入图片描述

项目地址：https://huggingface.co/collections/google/gemma-2-release-667d6600fd5220e7b967f315

LMSYS Chatbot Arena：开源模型性能第一

Gemma 2 在LMSYS竞技场上取得了亮眼的成绩。

在总体评分上，Gemma 2 取到了开源模型最高分，而且用 27B 的参数「以小搏大」，超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型，而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。

在这里插入图片描述

新的排行类别「多轮对话」，包括两轮或多轮的测试，以衡量模型在更长时间内交互的能力。

在「多轮对话」排行榜上，Claude家族的排名显著提升，Gemma 2 的表现依旧强劲。Gemma 2 实现了2个名次的进步，进入前十行列，而且压了 Llama 3-70B-Instruct 一头。

在这里插入图片描述

Gemma为什么这么强？

架构创新

Gemma 2 在设计的架构上均有创新，旨在实现卓越的性能和提高推理效率。

Gemma 2 训练数据量大约是第一代的两倍。27B模型的训练数据有13万亿token，9B模型和2.6B模型则分别为8万亿、2万亿token。

基于Transformer解码器架构，与 Gemma 1 不同之处在于，Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制，引入了分组查询注意力（GQA）以提高推理速度，相比 Gemma 1 也使用了更深的网络结构。

在这里插入图片描述

图注：Gemma 2 关键模型参数

局部滑动窗口和全局注意力：Gemma 2 交替使用局部滑动窗口和全局注意力，滑动窗口大小设置为4096 token，而全局注意力层的设置为8192 token。
Logit软上限：按照Gemini 1.5版，Gemma 对每个注意层和最终层的logit进行软封顶。通过将logits设置在一个合理的固定范围内，可以有效提升训练的稳定性，防止内容过长。
使用RMSNorm进行前后归一化：为了使训练更加稳定，Gemma 2 运用了 RMSNorm 对每个转换层、注意层和反馈层的输入和输出进行归一化。这一步和Logit软上限都使得模型训练更稳定平滑，不易出现崩溃。
分组查询注意力：GQA通过将算力集中于注意力分组内，提升数据处理速度，同时保持下游性能。
知识蒸馏：能够训练出有竞争力性能的9B和27B模型，成功的知识蒸馏过程估计是最为重要的环节。

技术报告中也有Gemma 2的更多信息。

在这里插入图片描述

报告地址：https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

对AI安全性的提升

Gemma 2在实用高效的同时，也从安全角度做出了新举措。

谷歌致力于为开发人员和研究人员提供构建和部署AI所需的资源，提供了「负责任的生成式AI工具包」。最近，谷歌开源了LLM Comparator，可以帮助评估语言模型，并通过Python库进行比较和可视化。此外，谷歌正致力于为 Gemma 模型开源文本水印技术 SynthID。

在训练 Gemma 2 时，遵循了严格的内部安全流程，预训练数据都经过了严格的筛选，并根据全面指标进行了测试，以识别和减轻偏见和风险。谷歌还发布了大量与安全和代表性损害相关的公共基准测试结果。

在这里插入图片描述

Gemma 2目前可以在Google AI Studio中使用，在Gemma 27B下测试其全部性能，而无需硬件要求。
此外，为方便研发人员使用，Gemma 2还可通过Kaggle或谷歌Colab免费获取。

参考资料：
https://blog.google/technology/developers/google-gemma-2/
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

欢迎各位关注我的个人微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

快乐小码农

关注

19
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
谷歌上新！最强开源模型Gemma 2，27B媲美LLaMA3 70B，挑战3140亿Grok-1

在总体评分上，Gemma 2 取到了开源模型最高分，而且用 27B 的参数「以小搏大」，超过了Llama 3-70B-Instruct、Claude 3 Sonnet等更大量级的知名模型，而Gemma 2 9B 的排名甚至比肩Qwen 2 72B。基于Transformer解码器架构，与 Gemma 1 不同之处在于，Gemma 2 每隔一层交替使用局部滑动窗口注意力和全局注意力机制，引入了分组查询注意力（GQA）以提高推理速度，相比 Gemma 1 也使用了更深的网络结构。
复制链接

扫一扫

专栏目录