开源大模型王座易主!谷歌Gemma杀入场,CPU和端侧可运行,可商用

谷歌发布了新的开源模型系列Gemma,它体积小但性能强劲,尤其在关键基准测试中超越了较大规模的模型。Gemma在语言理解、数学和编码任务中表现出色,且重视隐私数据处理,确保安全。
摘要由CSDN通过智能技术生成

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

ab050d180dc9fe0021da5ac0b7df97c3.gif

d392f1bd851324f2b71b15f973585217.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

  • Gemma 官方页面:https://ai.google.dev/gemma/

计算机视觉研究院专栏

Column of Computer Vision Institute

刚刚,谷歌杀入开源大模型。

a9810945e7a217f365d685bf24b0ae47.gif

开源领域大模型,迎来了重磅新玩家。

谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。

5dfc48c8074caee1bc9566277abcc76c.png

Gemma 官方页面:https://ai.google.dev/gemma/

b4812ca47afc870e3adc3821d9de6003.png

6b750704310d488ebadb13a02a705bed.png

尽管体量较小,但谷歌表示 Gemma 模型已经「在关键基准测试中明显超越了更大的模型」,对比的包括 Llama-2 7B 和 13B,以及风头正劲的 Mistral 7B。

1eede98159c0ff3ea662d3e5ea209e59.png

eb4676aef56786b4dc0995497d2be938.png

545e9453b46da011468ac10bd429aa6b.png

0f7fd28eae9074e13c5e2fd12ba1e190.png

在 HuggingFace 的 LLM leaderboard 上,Gemma 的 2B 和 7B 模型已经双双登顶。

7a16f244f47d24222fd98e516cba7ac8.png

c67d79aeea0ee13a184ade6a6e317c65.jpeg

55b0f9e50ad6cd296ff8ee9ba3cd8d2c.png

3697655b98689a03707112aa88b5b5ed.png

虽然才发布几个小时,但 X 平台上已经有不少用户晒出了使用体验。有位用户表示,Gemma -7B 速度很快,输出也很稳定,好过 Llama-2 13B。

cd262218a4377c07848c4257cf67f0f1.png

4a214ac6a901be7a9390a77c6f27d654.png

efdbbb35c47fc59029b34e20f404b900.png

5e9187ae1cc039bf37617afa8149c301.png

以下是技术报告的细节。

Gemma 技术细节

总体来说,Gemma 是一个轻量级的 SOTA 开放模型系列,在语言理解、推理和安全方面表现出了强劲的性能。

c80838b1c8182b824b7a106a7d55b077.png

技术报告链接:https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

894559b1bd62581854e6b75e345dcc26.png

ff5445e994d066c8c8bebd3139b7fcb0.png

f604cd3e2ff5b2b2088c6f86de763123.png

f6d0d12ce7efbdc0a01ad4be4bbc7b6c.png

ab3f275aa738c2ee0cca3767118e1e91.png

dee956549265eefcebf302033a7786ce.png

8b7a287149c895f30005322336dea783.png

db098946f21aa081afde0639c0832343.png

cf1bafafd5925e2fc2c6cc912ff51767.png

c5f44f3e9e4d50d41ba7a5577090b644.png

cafbed6d06ca204ebdf7c4896e782aab.png

自动基准评估

谷歌还在一系列学术基准上将 Gemma 2B 和 7B 模型与几个外部开源 LLM 进行了比较,如表 6 所示:

在 MMLU 上,Gemma 7B 的表现优于相同或较小规模的所有开源模型,还优于几个较大的模型,包括 LLaMA2 13B。

afd4a89e1371c6d9b06819d052c96196.png

然而,基准作者对人类专家表现的评估结果是 89.8%, Gemini Ultra 是第一个超过这一阈值的模型,可以看到Gemma仍有很大的改进空间,以达到Gemini和人类水平的性能。

但 Gemma 模型在数学和编码基准测试中表现比较突出。在数学任务上,Gemma 模型在 GSM8K 和更难的 MATH 基准上的表现超过其他模型至少 10 分。同样,它们在 HumanEval 上的表现比其他开源模型至少高出 6 分。Gemma 在 MBPP 上的表现甚至超过了经过代码微调的 CodeLLaMA-7B 模型(CodeLLaMA 得分为 41.4%,而 Gemma 7B 得分为 44.4%)。

记忆评估

谷歌使用 Anil 等人采用的方法测试 Gemma 的记忆能力,具体而言,他们从每个语料库中采样 10000 个文档,并使用前 50 个 token 作为模型的 prompt。在此过程中,谷歌主要关注精准记忆,如果模型生成的后续 50 个 token 与文本中的真实后续文本完全匹配,则将该文本分类为已记忆。图 2 将评估结果与同等规模的 PaLM 和 PaLM 2 模型进行了比较,结果如下所示。

2f1a60b7c96a300600d797a3091911df.png

5efce99bad359de8c1118ff102e99837.png

隐私数据

对大模型来说,隐私数据被记住的可能性是一件非常值得关注的事情。为了使 Gemma 预训练模型安全可靠,谷歌使用自动方法从训练集中过滤掉某些隐私信息和其他敏感数据。

为了识别可能出现的隐私数据,谷歌使用 Google Cloud 数据丢失防护 (DLP) 工具。该工具根据隐私数据的类别(例如姓名、电子邮件等)输出三个严重级别。谷歌将最高严重性分类为「敏感(sensitive)」,其余两个分类为「隐私(personal)」,然后测量有多少存储的输出包含敏感或个人数据。

如下图 3 所示,谷歌没有观察到存储敏感数据的情况,但确实发现 Gemma 模型会记住一些上述分类为潜在「隐私」的数据。值得注意的是,研究中使用的工具可能存在许多误报(因为其只匹配模式而不考虑上下文),这意味着实验结果可能高估了已识别的隐私数据量。

84b17655b40b50310872c2491e5ec098.png

在记忆数据量方面,如下图 4 所示,谷歌观察到大约会多出 50% 的数据被记住,并且在数据集的每个不同子类别中几乎是一致的。

012c4748e5ae92874e1ad21d51a46cf8.png

最后,谷歌还通过标准化 AI 安全基准评估了 Gemma 的安全性,结果如下表 8 所示。

51f57397782976a138b2f37d334caae9.png

参考链接:

https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source

转自《机器之心》

4db50a6f9f24da1da1df78601c8a804c.gif

END

4c1b25a7d45a222219055c08247c543e.gif

6beebfe7e51d3485cd5ce2bd1b45482f.gif

转载请联系本公众号获得授权

39461de7f42fc1487d95faf4bc3a4133.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

bb7b811e9f59b2afc0cf9adce253992d.png

 往期推荐 

🔗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值