SmolLM:性能炸裂碾压一众竞品

北光

已于 2024-08-04 07:15:56 修改

阅读量170

点赞数 2

文章标签：人工智能

于 2024-07-22 21:59:36 首次发布

本文链接：https://blog.csdn.net/liangjinliang/article/details/140620737

版权

Hugging Face发布
完全开源的小型语言模型
参数量从 135M 到 1.7B 不等
可以在手机上流畅运行
打败了99%的对手
官方介绍:https://huggingface.co/blog/smollm
文章原始链接：https://blog.i68.ltd/archives/smollm

Hugging Face 发布了一系列完全开源的小型语言模型 SmolLM，参数量从 135M 到 1.7B 不等，最重要的是，它可以在你的手机上流畅运行，性能炸裂碾压一众竞品。

SmolLM 到底有多强？它直接对标了市面上最强的几款小型模型，包括微软的 Phi 系列、阿里巴巴的 Qwen2（小于 2B 参数）和 Meta 的 MobileLLM，并在多项测试中取得了全面胜利。

模型架构：从小巧玲珑到性能怪兽
SmolLM 系列包含三种规模的模型，每种都针对不同的设备和应用场景进行了优化：

135M 和 360M 参数模型: 专为内存受限的设备设计，例如智能手机和小型嵌入式系统。它们采用了类似 MobileLLM 的架构，并利用分组查询注意力（GQA）机制来提高效率。
1.7B 参数模型: 面向高端智能手机、普通笔记本电脑等性能更强的设备，采用了更传统的架构设计，以追求更强大的性能。
值得一提的是，所有 SmolLM 模型都拥有 2048 个 token 的上下文长度，并且可以通过长上下文微调进一步扩展，这意味着它们能够处理更长、更复杂的任务。

优质数据集：SmolLM 的秘密武器
俗话说“巧妇难为无米之炊”，强大的模型离不开优质的训练数据集。SmolLM 正是得益于精心策划的 SmolLM-Corpus 数据集，才得以在众多模型中脱颖而出。

Cosmopedia v2: 这是一个由 Hugging Face 利用 llama3-70B-Instruct 和 Qwen1.5-72B-Chat 等强大模型生成的合成数据集，涵盖了 34,000 多个主题，包含了超过 3000 万本合成教科书、博客文章和故事。

FineWeb-Edu: 从著名的 FineWeb 数据集中筛选出的精华部分，包含 1.3T 个 token 的教育网页数据，经过了严格的质量控制，确保了数据的可靠性和教育价值。

Stack-Edu-Python: 从 The Stack 数据集中精选的 50 万个 Python 代码样本，这些样本都经过了 Llama3 的注释和分类，并筛选出评分最高的样本，保证了模型在代码生成任务上的出色表现。

北光

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SmolLM:性能炸裂碾压一众竞品

Stack-Edu-Python: 从 The Stack 数据集中精选的 50 万个 Python 代码样本，这些样本都经过了 Llama3 的注释和分类，并筛选出评分最高的样本，保证了模型在代码生成任务上的出色表现。FineWeb-Edu: 从著名的 FineWeb 数据集中筛选出的精华部分，包含 1.3T 个 token 的教育网页数据，经过了严格的质量控制，确保了数据的可靠性和教育价值。俗话说“巧妇难为无米之炊”，强大的模型离不开优质的训练数据集。优质数据集：SmolLM 的秘密武器。
复制链接

扫一扫