SmolLM:性能炸裂碾压一众竞品

Hugging Face 发布了一系列完全开源的小型语言模型 SmolLM,参数量从 135M 到 1.7B 不等,最重要的是,它可以在你的手机上流畅运行,性能炸裂碾压一众竞品。

SmolLM 到底有多强? 它直接对标了市面上最强的几款小型模型,包括微软的 Phi 系列、阿里巴巴的 Qwen2(小于 2B 参数)和 Meta 的 MobileLLM,并在多项测试中取得了全面胜利。

模型架构:从小巧玲珑到性能怪兽
SmolLM 系列包含三种规模的模型,每种都针对不同的设备和应用场景进行了优化:

135M 和 360M 参数模型: 专为内存受限的设备设计,例如智能手机和小型嵌入式系统。它们采用了类似 MobileLLM 的架构,并利用分组查询注意力(GQA)机制来提高效率。
1.7B 参数模型: 面向高端智能手机、普通笔记本电脑等性能更强的设备,采用了更传统的架构设计,以追求更强大的性能。
值得一提的是, 所有 SmolLM 模型都拥有 2048 个 token 的上下文长度,并且可以通过长上下文微调进一步扩展,这意味着它们能够处理更长、更复杂的任务。

优质数据集:SmolLM 的秘密武器
俗话说“巧妇难为无米之炊”,强大的模型离不开优质的训练数据集。SmolLM 正是得益于精心策划的 SmolLM-Corpus 数据集,才得以在众多模型中脱颖而出。

Cosmopedia v2: 这是一个由 Hugging Face 利用 llama3-70B-Instruct 和 Qwen1.5-72B-Chat 等强大模型生成的合成数据集,涵盖了 34,000 多个主题,包含了超过 3000 万本合成教科书、博客文章和故事。

FineWeb-Edu: 从著名的 FineWeb 数据集中筛选出的精华部分,包含 1.3T 个 token 的教育网页数据,经过了严格的质量控制,确保了数据的可靠性和教育价值。

Stack-Edu-Python: 从 The Stack 数据集中精选的 50 万个 Python 代码样本,这些样本都经过了 Llama3 的注释和分类,并筛选出评分最高的样本,保证了模型在代码生成任务上的出色表现。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值