Hugging Face

The AI community building the future.

  • 博客(378)
  • 收藏
  • 关注

原创 Transformer 中的专家混合模型 (MoE)

每个设备只加载分配给自己的那部分专家,负责对应的计算,并在最后参与结果的汇总。在专家混合 (MoE) 模型中,每个 token 会被路由到不同的专家。时,模型会从标准的张量并行 (Tensor Parallel, TP) 策略切换为专家并行 (Expert Parallel, EP) 策略,并采用专门的切分 (sharding) 方式。将全局专家索引映射为本地索引,屏蔽不属于当前设备的专家,确保每个设备只使用本地专家进行计算,并通过 all-reduce 在设备之间汇总部分计算结果。欢迎告诉我们你希望在。

2026-03-27 08:50:47 459

原创 在 Hugging Face Hub 上引入 Storage Buckets

在未来的规划中,我们将支持 Buckets 与仓库之间的双向直接传输:例如将最终的 checkpoint 权重提升到模型仓库,或者在数据流水线完成后,把处理好的数据分片提交到数据集仓库。如果你来自 S3 风格的对象存储环境,Buckets 也提供了熟悉的使用模式,同时更适配 AI 产物,并能无缝过渡到 Hub 上的最终发布流程。对于一次性操作,可以使用。提供了原生的存放位置,比如 checkpoint、处理后的数据、Agent trace、日志,以及所有在最终定稿之前仍然有价值的中间产物。

2026-03-21 10:05:27 437

原创 LeRobot v0.5.0 正式发布

成为目前规模最大的一次发布 —— 几乎在所有方向上都实现了扩展:支持更多机器人 (包括首个类人机器人) 、更多策略模型 (包括回归的自回归 VLA) 、更快的数据集处理、可以直接从 Hub 加载的仿真环境,以及基于。:我们将 SO-100 和 SO-101 的实现整合到一个更简洁的代码库中 (包括双臂配置) ,减少重复代码,更易维护,同时保持原有功能。从更严格的类型检查到更健壮的测试基础设施,我们正在持续加强 LeRobot 的基础架构,以支持未来更大规模的发展。这大大降低了分享自定义仿真环境的门槛。

2026-03-11 09:23:57 578

原创 全球开源 AI 生态的未来:从 DeepSeek 到 AI+

资源约束并未限制中国 AI 的发展,相反,在某些方面,它们重塑了其发展轨迹。截至 2025 年中,Qwen 成为 Hugging Face 上衍生模型数量最多的基础模型,已有超过 11.3 万个模型以 Qwen 为基座构建,超过 20 万个模型仓库标注了 Qwen,远高于 Meta 的 Llama(2.7 万)或 DeepSeek(6 千)。通过在更开放的系统中打通模型、芯片与 PaddlePaddle,百度得以在算力、成本和监管等共同约束下,降低成本、吸引开发者并影响行业标准,同时保持自身的战略控制力。

2026-02-04 10:03:22 457

原创 DeepSeek之后:中国开源人工智能生态的架构选择

与此同时,训练侧的信号也开始显现。相比之下,定制化和约束性更强的许可证因为不被熟知、理解成本高,增加了新的法律风险,在实际使用中显著增加了摩擦成本,从而降低了采用意愿,这也直接导致了图中所显示的整体下滑。在统一的能力框架下,根据任务的复杂度与价值,动态激活不同数量的专家,从而在不同请求与部署环境中分配计算资源。例如,在 DeepSeek-V3.2-Exp 发布时,华为昇腾与寒武纪芯片实现了“首日支持”,并非云端演示,而是与模型权重一同发布的可复现推理流水线,使开发者能够直接验证真实世界中的性能表现。

2026-01-28 22:30:39 816

原创 <span class=“js_title_inner“>DeepSeek之后:中国开源人工智能生态的架构选择</span>

与此同时,训练侧的信号也开始显现。相比之下,定制化和约束性更强的许可证因为不被熟知、理解成本高,增加了新的法律风险,在实际使用中显著增加了摩擦成本,从而降低了采用意愿,这也直接导致了图中所显示的整体下滑。在统一的能力框架下,根据任务的复杂度与价值,动态激活不同数量的专家,从而在不同请求与部署环境中分配计算资源。例如,在 DeepSeek-V3.2-Exp 发布时,华为昇腾与寒武纪芯片实现了“首日支持”,并非云端演示,而是与模型权重一同发布的可复现推理流水线,使开发者能够直接验证真实世界中的性能表现。

2026-01-28 22:30:39 662

原创 推出 AnyLanguageModel:在 Apple 平台统一本地与远程大语言模型的 API

对于 Xcode 项目 (目前还不支持直接声明 trait) , 你可以创建一个内部的 Swift 包,指定所需 trait 依赖 AnyLanguageModel, 然后将这个包作为本地依赖添加到你的项目中。我们在这里做了有意识的取舍, 也许我们现在的设计将来会和 Apple 官方的实现产生冲突, 但这正是废弃警告 (deprecation warnings) 存在的意义。这个项目是一个起点: 你可以 fork 它、扩展它、替换不同的模型, 了解各个模块如何协作,并根据自己的需求进行定制。

2026-01-27 11:10:28 476

原创 使用 Hugging Face 轻松构建并共享 ROCm 内核

自定义内核是高性能深度学习的基础,它让 GPU 操作能完全贴合你的工作负载需求——无论是图像处理、张量变换,还是其他计算密集型任务。然而,要为正确的架构编译这些内核、配置各种编译标志并干净地整合到 PyTorch 扩展中,往往会变成一团乱麻 (CMake/Nix、编译错误、ABI 问题等)。这保证了你的内核既高效、又可移植,还能无缝集成到 PyTorch 中。一旦构建完成,只需上传到 Hugging Face Hub,社区中的其他人就能直接使用你的自定义内核——几行代码即可完成集成,轻松共享高性能成果。

2026-01-26 11:09:35 1215

原创 “DeepSeek 时刻” 一周年

DeepSeek 的 R1 模型降低了获取先进模型能力的门槛,并提供了一种清晰、可供效仿的发展范式,从而解锁了新的发展层级。来自美国机构的重要发布。表面上看似合作的行为,更准确地说,是在共同的技术、经济与监管压力下形成的对齐。这是中国的开源模型首次进入全球主流榜单,并且在随后的一年中,每当有新模型发布时,它都反复被用作重要的参考基准。与 2024 年相比,R1 发布之后,中国的人工智能格局逐步形成了一种新的态势:大型科技公司率先行动,初创公司迅速跟进,来自垂直行业的公司也越来越多地进入这一领域。

2026-01-21 10:02:20 547

原创 Transformers v5 中的分词系统:更简洁、更清晰、更模块化

最糟糕的是,你无法创建一个空的分词器架构。如果你想用自己的数据训练一个 LLaMA 风格的分词器,没有简单的方法可以初始化一个“空白”的 LLaMA 分词器并填入自定义的词表和合并规则。最终得到的分词器将拥有你自定义的词表和合并规则,但在处理文本时的行为将与标准的 LLaMA 分词器完全一致:空格处理、特殊 token 规则、解码行为都相同。这些模型专属的分词器类会根据各自模型的需求,对后端进行配置,包括正确的词表、合并规则、特殊 token,以及标准化设置等,确保分词行为与模型训练时保持一致。

2026-01-13 11:11:01 581

原创 <span class=“js_title_inner“>Transformers v5 中的分词系统:更简洁、更清晰、更模块化</span>

最糟糕的是,你无法创建一个空的分词器架构。如果你想用自己的数据训练一个 LLaMA 风格的分词器,没有简单的方法可以初始化一个“空白”的 LLaMA 分词器并填入自定义的词表和合并规则。最终得到的分词器将拥有你自定义的词表和合并规则,但在处理文本时的行为将与标准的 LLaMA 分词器完全一致:空格处理、特殊 token 规则、解码行为都相同。这些模型专属的分词器类会根据各自模型的需求,对后端进行配置,包括正确的词表、合并规则、特殊 token,以及标准化设置等,确保分词行为与模型训练时保持一致。

2026-01-13 11:11:01 733

原创 构建开放的未来——我们与 Google Cloud 的全新合作伙伴关系

我们非常期待通过与 Google Cloud 的深入合作,让这一愿景加速实现——无论你使用的是 Vertex AI Model Garden、Google Kubernetes Engine、Cloud Run,还是 Hugging Face Inference Endpoints。通过这个 CDN Gateway,Hugging Face 的模型和数据集将直接缓存在 Google Cloud 上,大幅减少下载时间,并提升 Google Cloud 用户在模型供应链方面的稳定性和可靠性。

2025-12-31 13:01:30 495

原创 使用 NVIDIA Isaac 构建医疗机器人:从仿真到部署

该流程通过约 70 个仿真演示和 10–20 个真实演示相结合,在模拟多样场景的同时,也保留真实数据的可靠性。NVIDIA Isaac for Healthcare 是一个专为 AI 医疗机器人开发者打造的框架,提供从数据采集到训练、评估再到部署的全流程工具链,适用于仿真环境与真实硬件。仿真一直是医学影像中弥补数据缺口的重要手段,但在医疗机器人领域,它过去往往速度太慢、系统割裂,或难以迁移到现实应用中。值得一提的是,超过 93% 的策略训练数据来自仿真环境,充分说明仿真技术在缩小机器人数据鸿沟方面的优势。

2025-12-25 11:25:57 1483

原创 Codex 正在推动开源 AI 模型的训练与发布

你可以训练 0.5B 到 7B 参数规模的模型,将它们转换为 GGUF 格式便于本地运行,还可以通过多阶段流程结合不同方法。Trackio 会通过自动运行评估任务,帮助你监控训练和评估的得分,并选择表现最好的模型检查点 (checkpoint)。这里的重点不是“Codex 自己开源模型”,而是让 Codex 作为编码代理,参与并自动化开源模型的训练、评估与发布全流程。我们已经展示了 Codex 如何处理模型微调的完整生命周期,验证数据、选择硬件、生成训练脚本、提交任务、监控进度,以及转换输出。

2025-12-20 11:00:59 678

原创 经同意的语音克隆

每次生成时,系统会随机选择一个日常话题 (如天气、美食或音乐) ,使句子内容丰富多样,也更自然好读,有助于录音清晰、自然,并具备良好的语音质量,同时包含明确的同意声明。换句话说,模型不会擅自“说出”你的声音,除非你亲口同意。也就是说,“同意”成为系统运行的前提条件,让原本抽象的伦理原则变成了具体可操作的系统规则,并形成可追溯、可审核的交互记录:AI 模型只会在明确同意之后才运行。现在很多语音克隆模型只需要一句话就能模仿说话人的声音,因此这句用于表达“同意”的句子,也可以同时作为语音克隆的输入数据。

2025-12-19 11:10:00 1003

原创 流式数据集:效率提升 100 倍!

比如,在 Hugging Face 上传大型数据集时,Xet 的去重机制大幅减少了数据传输量,上传更快;流式加载一直是快速了解数据集的好方法,但在训练模型时,大多数人仍然选择将数据预先下载到本地,或使用 S3 等云存储——我们在训练。包,支持 Spark 直接读写 HF 数据集,内置对 Parquet CDC 和 Xet 的支持,大幅加快大数据处理。在机器学习中,特别是在处理 TB 级别的数据时,数据加载一直是个大难题。库还不支持,或者你希望获得更高的控制权,我们也提供了强大的自定义流式能力。

2025-12-17 11:52:12 735

原创 huggingface_hub 1.0 正式版现已发布:开源机器学习基础五周年回顾

在 Hugging Face Hub 的早期阶段,研究人员和开发者常常面临一个困扰: 训练一个先进的模型不仅耗时、耗资源,而且在训练完成后,模型往往“被困”在个人电脑里,只能通过不稳定的 Google Drive 链接进行分享。不再依赖单一的推理后端,而是与多家无服务器推理平台合作,包括 Together AI、SambaNova、Replicate、Cerebras、Groq 等,用户通过一个统一的 API 即可调用多个后端,路由透明,按请求计费,真正实现了“按需调用,轻松推理”。

2025-12-11 11:11:03 1412

原创 Hugging Face 论文页面功能指南

认领成功后,系统会将你标记为论文的提交者,即可向 Daily Papers 提交论文。在每篇论文的页面右侧,你都能找到相关资源链接,例如模型、数据集、Spaces 以及其他有用的集合。作者只需在相关资源(如模型或数据集)的 README.md 中添加该论文的 arXiv 链接,即可将资源与论文自动关联。论文提交不限于你自己的工作,你也可以分享任何你认为对社区有价值的研究论文。如果你的论文尚未在 Hugging Face 论文页面建立索引,只需点击 index 按钮,即可一步添加。如果你是首次分享论文。

2025-12-05 18:30:30 459

原创 LeRobot v0.4.0 正式发布:全面提升开源机器人的学习能力

LeRobot v0.4.0 为开源机器人领域带来重要升级:引入可扩展的 Datasets v3.0、强大的新 VLA (视觉-语言-动作) 模型如 PI0.5 与 GR00T N1.5,以及全新的插件系统,简化硬件集成。从重构的数据集到灵活的编辑工具、新的仿真环境,以及面向硬件的全新插件系统,LeRobot 正在持续演进,以满足前沿具身智能 (Embodied AI) 不断发展的需求。模型需要在正确设备上的规范化、按批次的张量,而你的机器人硬件则需要特定格式的动作命令。更多细节可阅读我们此前的。

2025-10-29 08:10:22 1434

原创 Gaia2 与 ARE:赋能社区的智能体评测

现有的评测环境通常与特定任务紧密耦合,缺乏真实世界的灵活性,也无法反映开放世界中混乱的现实:模拟页面不会加载失败,事件不会自发发生,也不存在异步混乱。在理想情况下,AI 智能体应当是可靠的助手。当接收到任务时,它们能够轻松处理指令中的歧义,构建逐步执行的计划,正确识别所需资源,按计划执行而不被干扰,并在突发事件中灵活适应,同时保持准确性,避免幻觉。当接收到任务时,它们能够轻松处理指令中的歧义,构建逐步执行的计划,正确识别所需资源,按计划执行而不被干扰,并在突发事件中灵活适应,同时保持准确性,避免幻觉。

2025-09-23 22:06:10 1627

原创 ZeroGPU Spaces 加速实践:PyTorch 提前编译全解析

它高效、灵活,非常适合演示,不过需要注意的是,ZeroGPU 并不能在所有场景下完全发挥 GPU 与 CUDA 栈的全部潜能,比如生成图像或视频可能需要相当多的时间。根据模型的不同,这个过程可能需要几十秒到几分钟,对于 Spaces 中的实际 GPU 任务来说,这显然太慢了。通过提前编译,我们可以在一开始导出已编译的模型,将其保存,然后在任意进程中即时加载。否则,如果存在不兼容问题,就会报错。例如,在 Wan 系列视频生成模型中,如果你希望编译后的模型能够生成不同分辨率的内容,就会遇到这种情况。

2025-09-04 21:00:28 816

原创 开源开发者须知:欧盟《人工智能法案》对通用人工智能模型的最新要求

根据 其第 3 条第 63 款 的定义,GPAI 模型是指:“人工智能模型,包括那些通过大规模自监督方式训练、具备显著通用性,并能够胜任多种不同任务的模型,无论其在市场上的投放方式如何,该类模型都能够被集成到各种下游系统或应用中。虽然《网络弹性法案》的措辞可能对《人工智能法案》的解释不具备约束力,但其中的这一表述以及其他相关措辞确实指向一种理解,即在FOSS 许可下提供的软件,并不总是、也并非本质上就应当被视为《网络弹性法案》意义下的“商业活动”,特别是在生产者未对其进行“商业化”的情况下。

2025-08-19 19:01:29 1983

原创 欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族!

在 GPT OSS 中,system 消息遵循严格格式,并包含当前日期、模型身份以及推理强度等级等信息,而 “developer” 消息则更为自由,这 (令人困惑地) 使它类似于其他模型的 “system” 消息。Hugging Face 与 Azure 合作,将最受欢迎的开源开放模型 (涵盖文本、视觉、语音与多模态任务) 直接引入 Azure AI Model Catalog,便于客户在托管在线端点中安全部署,借助 Azure 的企业级基础设施、自动扩缩与监控能力。轻松在多张 GPU 上部署。

2025-08-06 16:30:47 2421

原创 Hugging Face 开源机器人 Reachy Mini 开启预定

无论是 AI 开发者、极客或黑客、科研人员、教育工作者、机器人爱好者,还是与孩子一同学习编程的家长,Reachy Mini 都能帮助你在桌面环境中高效完成 AI 应用的开发、最新算法的测试、项目的实际部署以及创新成果的共享。:通过上传、下载和分享机器人行为,实现行为复用与组合创新,随着 Reachy Mini 社区的发展,可能性将呈指数级扩展。:与 Hugging Face 社区超千万用户一起,上传、分享与下载机器人行为,共同扩展智能机器人的边界。:集成摄像头、麦克风与扬声器,支持基于 AI 的视听交互。

2025-07-09 22:01:03 1701

原创 开源人工智能:数字主权的基石

像 OLMO2(一个相对较小的模型,其训练方法和数据完全透明,性能与 OpenAI 的 o1-mini 相当)或 OlympicCoder(一个更小的模型,在复杂编码任务上性能超过最新的 Claude 模型)这样的开源项目,充分体现了协同创新在构建先进人工智能模型中的潜力。这种能力的积累,不仅有助于形成符合本地价值观与监管要求的人工智能系统,更是面向未来的关键竞争力,在人工智能深度塑造经济、治理与社会结构的时代背景下,具有不可替代的长期战略意义。:确保在一国领土内生成的数据受该国法律和治理结构的约束。

2025-06-30 21:30:23 1240

原创 nanoVLM: 简洁、轻量的纯 PyTorch 视觉-语言模型训练代码库

该模块将视觉主干网络产生的图像嵌入作为输入,并将它们转换为与语言模型嵌入层的文本嵌入兼容的嵌入。减少了图像标记的数量,这有助于降低计算成本并加快训练速度,特别是对于对输入长度敏感的基于 transformer 的语言解码器。下图演示了这个概念。在这篇博客中,我们介绍了什么是 VLM,探讨了支撑 nanoVLM 的架构选择,并详细解释了训练和推理工作流程。,可以帮助你构建和训练一个能够理解图像和文本,并基于此生成文本的模型。如果你尝试了它,并在它的基础上尝试构建,或者你只是有问题,我们都很乐意听到你的反馈。

2025-06-18 10:31:10 1444

原创 HF Papers 直播| AI Insight Talk 强化学习专场

研究方向为多模态通用感知模型、多模态大模型后训练算法,在人工智能国际顶级会议及期刊发表论文十余篇,谷歌学术累计引用超过1900次,作为核心作者(共一二作)参与研发的多模态大模型InternVL-Chat系列模型在HuggingFace社区累计下载量突破1000万次,开源代码在Github获得stars超过8000个。已在 NeurIPS,ICLR,ACL 等国际顶级会议上发表多篇论文,谷歌学术引用量 600+,担任 NeurIPS 等顶级会议审稿人。为了更好的社区互动过,我们在本次直播加入了圆桌讨论环节。

2025-06-12 22:00:47 1214

原创 SmolVLA: 让机器人更懂 “看听说做” 的轻量化解决方案

从左到右: (1) 异步的拾取 - 放置立方体计数,(2) 同步的拾取 - 放置立方体计数,(3) 在扰动下的拾取 - 放置立方体计数,(4) 在真实世界 SO101 上的乐高积木拾取 - 放置任务泛化。与学术基准不同,社区数据集自然地捕捉到了杂乱、现实的互动: 多变的光照、不完美的演示、非常规物体和异质的控制方案。在过去的几年里,Transformers 技术推动了人工智能的显著进展,从能够进行类人推理的语言模型到理解图像和文本的多模态系统。然而,在实际的机器人领域,进展则相对较慢。

2025-06-05 10:30:30 2257

原创 参加 Hugging Face 组织的 Gradio & MCP 智能体主题黑客松

一场以智能体 (Agent) 和模型上下文协议 (Model Context Protocol,简称 MCP) 为核心的全球在线黑客松即将来袭!Model Context Protocol (MCP) 是一个开放协议,旨在标准化应用如何向大语言模型 (LLM) 提供上下文信息。:在 6 月 8 日 23:59 (UTC) 之前提交至对应的 Hugging Face Spaces。构建一个完整的 AI 智能体展示应用 (可使用 MCP,也可以不使用) ,让我们看到它真正能做些什么!

2025-05-27 23:00:48 1547

原创 大模型评估排障指南 | 关于可复现性

它们在标准测试集 MATH-Hard 上预测的答案完全正确,但在 few-shot 简单模板测试中评估得分反而较低,很可能就是过拟合了 GSM8K 数据集 (另一个数学测试集) 的 prompt 和答案格式。,如果不看代码,你可能觉得就是上文提到的那样,直接对比预测结果和参考答案,不过: 如果查看代码会发现,在做对比之前预测结果还多做了一步归一化 (去除标点符号、统一数字格式等),这明显会改变对比得分。(没错不用惊讶,不一致时也会影响结果差异,因为不同模型对不同样本的表现是不一样的)。

2025-05-13 10:30:40 1126

原创 大模型评估排障指南 | 关于 LaTeX 公式解析

或者往代码里添加人工检查来提高模型得分。在几乎陷入问题陷阱之后,我们认为在代码中添加字符串比较检查差不多就能缓解这个问题了。解析真值 (用真值自身对比测试) 只能得到约 0.94 的准确率。来表示数学领域的计算和符号。评估难点在于对模型输出与标准答案的解析和比较。(一个用于符号数学的 Python 库) 来对 LaTeX 进行解析和比较。的模型时经常会遇到,例如 Hugging Face 的。解析 LaTeX 很难。这个问题在评估输出为。lm-evaluation 框架使用。无法解析某些 (标准的。

2025-05-07 22:00:55 661

原创 设计即合规: 开放AI生态中的用户数据治理实践

通过将数据完全保留在用户的本地环境中,它从根本上改变了传统的 “知情同意” 模式,使许多对数据外泄的担忧变得不再成立,除非用户主动设置将数据传出。这种分布式的方法也促成了多种用户知情同意机制的实践形式 —— 既包括强调 “隐私优先设计” (privacy-by-design) 原则的严格框架,也包括为大规模数据集提供“选择退出” (opt-out) 通道的灵活机制。与那些更复杂、长期的数据管理系统不同,该方法强调的是即时、基于当前会话的控制,让用户在每一次使用时都能清楚地掌控自己的数据使用权。

2025-04-30 22:00:47 1915

原创 大模型评估排障指南 | 关于推理

即在 layer 级拆分模型,不同的 layer 被分配到不同的 GPU 上。由于推理时前向过程是线性的,例如 layer 1 的输出是 layer 2 的输入,因此 layer 2 分配的 GPU 需要等待 layer 1 的计算结束才能开始 (也叫 “冒泡 (bubble)”),同时数据和中间结果也需要 GPU 间传输,这也就导致执行速度较慢。更一般地,确保输入模型的样本的上下文大小是按从大到小的顺序,这样如果上下文大小过大,模型就会直接报错,避免了模型一开始正常运行,直到某个时间才出问题。

2025-04-24 23:00:56 1130

原创 让 LLM 来评判 | 技巧与提示

例如,成对比较模型的训练集数据格式中提供了参考答案,如果在评估时没有给定参考答案或者给定的参考答案格式有误,那么评估结果就不可信。例如在某些特定领域 (如医学、法律、数学等),如果标注员专业性不够,那么得到的结果可能跟直接采用 LLM 一样差。:同一 prompt 输入评估模型执行多次得到的结果可能不一样 (如果温度参数不设为 0)。例如对于施加了相同程度噪声的文本,使用评估模型评估文本质量的评分无法反映噪声的程度。缓解措施:仔细遵循评估模型训练集 prompt 格式 (比如指令微调模型的格式)。

2025-04-09 10:31:13 962

原创 Open R1 项目进展第三期

虽然最终子任务通常是完整问题,但其他大多数子任务往往是难度较低的问题,参赛者可以选择解决部分子任务以获得部分分数,而不是尝试完美解决完整问题 (完美得分非常罕见)。虽然我们计划未来通过模型生成并验证更多具有挑战性的测试用例,添加到我们的 CodeForces 数据集中,但目前我们转向了其他地方寻找完整可用的题目数据。具体来说,我们先提交针对问题最后一个子任务的解决方案,然后依次提交针对倒数第二个、第三个子任务的代码,同时跳过已解决的子任务。不过不管怎样,我们试过的所有数据集里,打包的表现都不如不打包。

2025-04-03 10:30:40 1001

原创 Open R1 项目进展第二期

虽然我们升级了 Math-Verify,让它能更好地处理这些怪格式 (后面会讲改进),但还是找了个备用方案: 用 Llama-3.3-70B-Instruct 当“裁判”,从被拒的答案里救回一些靠谱的。DeepSeek 团队生成了 60 万条推理记录,用来微调 Qwen 和 Llama 系列模型,结果证明,不用强化学习,直接从 R1 “蒸馏”出来的效果也很棒。除此之外,我们还聊聊社区里一些让人兴奋的进展,比如怎么整理出小而精的高质量数据集来微调模型,以及如何在训练和推理时控制推理模型的“思考步数”。

2025-03-31 20:30:29 1609

原创 Open R1 项目进展第一期

但效果不好,吞吐量低,只能同时处理 8 个请求,GPU 的 KV 缓存很快就满了。DeepSeek R1 发布已经两周了,而我们启动 open-r1 项目——试图补齐它缺失的训练流程和合成数据——也才过了一周。我们这才刚起步呢,打算把训练流程弄完,在小模型上试试,再用放大版的推理流程搞出高质量的数据集。虽然大家还在研究 DeepSeek-R1 的成果和报告,但这款模型在发布短短两周后,就已经火遍了大街小巷,吸引了无数目光。: 一个超棒的合成推理数据集,有 114k 个例子,数学、科学、代码、谜题啥都有。

2025-03-28 10:30:38 1350

原创 为什么 AI 模型离科学革命还差得很远?

文章的核心观点是,在未来一两年内,我们将拥有一个“装在数据中心里的爱因斯坦之国”,所有 21 世纪的科学发现将在短短 5 到 10 年内被一股脑地完成,从而压缩了整个世纪的科技进程。现在,我们评估 AI 模型智能提升的方式,大多是通过一些“高难度考试题”,比如所谓的“人类的最后一场考试”或 “Frontier Math”,这些测试由博士生设计,问题复杂但都是封闭式、明确有标准答案的题目。在我看来,按照当前的发展路径,我们真正可能得到的,是“一国的服务器上全是唯唯诺诺的好学生”,而不是爱因斯坦。

2025-03-26 23:31:37 1243

原创 常见的 AI 模型格式

GGUF 格式的 Llama-3.1 8B 模型示例,链接https://hf.co/bartowski/Meta-Llama-3.1-8B-Instruct-GGUF/tree/main。虽然也可以将其用于其他类型的模型,例如通过stable-diffusion.cpp实现的扩散模型,但这并不像在语言模型中的应用那样普遍。

2025-03-25 20:31:06 1336

原创 SmolVLM2: 让视频理解能力触手可及

模型与演示全集https://hf.co/collections/HuggingFaceTB/smolvlm2-smallest-video-lm-ever-67ab6b5e84bf8aaa60cb17c7。虽然属于实验性发布,但期待它能激发更多创新应用。微调笔记https://github.com/huggingface/smollm/blob/main/vision/finetuning/SmolVLM2_Video_FT.ipynb。我们推出三款新模型 (2.56 亿/5 亿/22 亿参数)。

2025-03-21 23:00:28 2015

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除