点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
Gemma 官方页面:https://ai.google.dev/gemma/
计算机视觉研究院专栏
Column of Computer Vision Institute
刚刚,谷歌杀入开源大模型。
开源领域大模型,迎来了重磅新玩家。
谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。
Gemma 官方页面:https://ai.google.dev/gemma/
尽管体量较小,但谷歌表示 Gemma 模型已经「在关键基准测试中明显超越了更大的模型」,对比的包括 Llama-2 7B 和 13B,以及风头正劲的 Mistral 7B。
在 HuggingFace 的 LLM leaderboard 上,Gemma 的 2B 和 7B 模型已经双双登顶。
虽然才发布几个小时,但 X 平台上已经有不少用户晒出了使用体验。有位用户表示,Gemma -7B 速度很快,输出也很稳定,好过 Llama-2 13B。
以下是技术报告的细节。
Gemma 技术细节
总体来说,Gemma 是一个轻量级的 SOTA 开放模型系列,在语言理解、推理和安全方面表现出了强劲的性能。
技术报告链接:https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf
自动基准评估
谷歌还在一系列学术基准上将 Gemma 2B 和 7B 模型与几个外部开源 LLM 进行了比较,如表 6 所示:
在 MMLU 上,Gemma 7B 的表现优于相同或较小规模的所有开源模型,还优于几个较大的模型,包括 LLaMA2 13B。
然而,基准作者对人类专家表现的评估结果是 89.8%, Gemini Ultra 是第一个超过这一阈值的模型,可以看到Gemma仍有很大的改进空间,以达到Gemini和人类水平的性能。
但 Gemma 模型在数学和编码基准测试中表现比较突出。在数学任务上,Gemma 模型在 GSM8K 和更难的 MATH 基准上的表现超过其他模型至少 10 分。同样,它们在 HumanEval 上的表现比其他开源模型至少高出 6 分。Gemma 在 MBPP 上的表现甚至超过了经过代码微调的 CodeLLaMA-7B 模型(CodeLLaMA 得分为 41.4%,而 Gemma 7B 得分为 44.4%)。
记忆评估
谷歌使用 Anil 等人采用的方法测试 Gemma 的记忆能力,具体而言,他们从每个语料库中采样 10000 个文档,并使用前 50 个 token 作为模型的 prompt。在此过程中,谷歌主要关注精准记忆,如果模型生成的后续 50 个 token 与文本中的真实后续文本完全匹配,则将该文本分类为已记忆。图 2 将评估结果与同等规模的 PaLM 和 PaLM 2 模型进行了比较,结果如下所示。
隐私数据
对大模型来说,隐私数据被记住的可能性是一件非常值得关注的事情。为了使 Gemma 预训练模型安全可靠,谷歌使用自动方法从训练集中过滤掉某些隐私信息和其他敏感数据。
为了识别可能出现的隐私数据,谷歌使用 Google Cloud 数据丢失防护 (DLP) 工具。该工具根据隐私数据的类别(例如姓名、电子邮件等)输出三个严重级别。谷歌将最高严重性分类为「敏感(sensitive)」,其余两个分类为「隐私(personal)」,然后测量有多少存储的输出包含敏感或个人数据。
如下图 3 所示,谷歌没有观察到存储敏感数据的情况,但确实发现 Gemma 模型会记住一些上述分类为潜在「隐私」的数据。值得注意的是,研究中使用的工具可能存在许多误报(因为其只匹配模式而不考虑上下文),这意味着实验结果可能高估了已识别的隐私数据量。
在记忆数据量方面,如下图 4 所示,谷歌观察到大约会多出 50% 的数据被记住,并且在数据集的每个不同子类别中几乎是一致的。
最后,谷歌还通过标准化 AI 安全基准评估了 Gemma 的安全性,结果如下表 8 所示。
参考链接:
https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source
转自《机器之心》
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗