开源大模型王座易主！谷歌Gemma杀入场，CPU和端侧可运行，可商用

最新推荐文章于 2024-05-07 22:29:44 发布

计算机视觉研究院

最新推荐文章于 2024-05-07 22:29:44 发布

阅读量224

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247533411&idx=2&sn=e41bb8b4b8ad45f5735318b2c89cf96b&chksm=faabeaba9023211cc04abf4a4c23755875e2e7b9640225570da089296ce0e0e1889179a41cba&scene=126&sessionid=0

版权

谷歌发布了新的开源模型系列Gemma，它体积小但性能强劲，尤其在关键基准测试中超越了较大规模的模型。Gemma在语言理解、数学和编码任务中表现出色，且重视隐私数据处理，确保安全。

摘要由CSDN通过智能技术生成

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

Gemma 官方页面：https://ai.google.dev/gemma/

计算机视觉研究院专栏

Column of Computer Vision Institute

刚刚，谷歌杀入开源大模型。

开源领域大模型，迎来了重磅新玩家。

谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini，Gemma 更加轻量，同时保持免费可用，模型权重也一并开源了，且允许商用。

Gemma 官方页面：https://ai.google.dev/gemma/

尽管体量较小，但谷歌表示 Gemma 模型已经「在关键基准测试中明显超越了更大的模型」，对比的包括 Llama-2 7B 和 13B，以及风头正劲的 Mistral 7B。

在 HuggingFace 的 LLM leaderboard 上，Gemma 的 2B 和 7B 模型已经双双登顶。

虽然才发布几个小时，但 X 平台上已经有不少用户晒出了使用体验。有位用户表示，Gemma -7B 速度很快，输出也很稳定，好过 Llama-2 13B。

以下是技术报告的细节。

Gemma 技术细节

总体来说，Gemma 是一个轻量级的 SOTA 开放模型系列，在语言理解、推理和安全方面表现出了强劲的性能。

技术报告链接：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

自动基准评估

谷歌还在一系列学术基准上将 Gemma 2B 和 7B 模型与几个外部开源 LLM 进行了比较，如表 6 所示：

在 MMLU 上，Gemma 7B 的表现优于相同或较小规模的所有开源模型，还优于几个较大的模型，包括 LLaMA2 13B。

然而，基准作者对人类专家表现的评估结果是 89.8%， Gemini Ultra 是第一个超过这一阈值的模型，可以看到Gemma仍有很大的改进空间，以达到Gemini和人类水平的性能。

但 Gemma 模型在数学和编码基准测试中表现比较突出。在数学任务上，Gemma 模型在 GSM8K 和更难的 MATH 基准上的表现超过其他模型至少 10 分。同样，它们在 HumanEval 上的表现比其他开源模型至少高出 6 分。Gemma 在 MBPP 上的表现甚至超过了经过代码微调的 CodeLLaMA-7B 模型（CodeLLaMA 得分为 41.4%，而 Gemma 7B 得分为 44.4%）。

记忆评估

谷歌使用 Anil 等人采用的方法测试 Gemma 的记忆能力，具体而言，他们从每个语料库中采样 10000 个文档，并使用前 50 个 token 作为模型的 prompt。在此过程中，谷歌主要关注精准记忆，如果模型生成的后续 50 个 token 与文本中的真实后续文本完全匹配，则将该文本分类为已记忆。图 2 将评估结果与同等规模的 PaLM 和 PaLM 2 模型进行了比较，结果如下所示。

隐私数据

对大模型来说，隐私数据被记住的可能性是一件非常值得关注的事情。为了使 Gemma 预训练模型安全可靠，谷歌使用自动方法从训练集中过滤掉某些隐私信息和其他敏感数据。

为了识别可能出现的隐私数据，谷歌使用 Google Cloud 数据丢失防护 (DLP) 工具。该工具根据隐私数据的类别（例如姓名、电子邮件等）输出三个严重级别。谷歌将最高严重性分类为「敏感（sensitive）」，其余两个分类为「隐私（personal）」，然后测量有多少存储的输出包含敏感或个人数据。

如下图 3 所示，谷歌没有观察到存储敏感数据的情况，但确实发现 Gemma 模型会记住一些上述分类为潜在「隐私」的数据。值得注意的是，研究中使用的工具可能存在许多误报（因为其只匹配模式而不考虑上下文），这意味着实验结果可能高估了已识别的隐私数据量。

在记忆数据量方面，如下图 4 所示，谷歌观察到大约会多出 50% 的数据被记住，并且在数据集的每个不同子类别中几乎是一致的。

最后，谷歌还通过标准化 AI 安全基准评估了 Gemma 的安全性，结果如下表 8 所示。

参考链接：

https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source

转自《机器之心》

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！