1、【谷歌发布全新TPU芯片】谷歌推出第七代TPU芯片Ironwood,专为推理和思考型AI模型设计
2、 Unsloth发布的教程:如何运行和微调Llama 4
3、 【精简推理强化学习】研究表明:简洁并不影响准确性,反而能提升LLM表现
4、 【步进式强化学习】SWiRL:多步骤推理和工具使用的新方法
5、 【Skywork R1V】突破性多模态推理模型,结合思维链
6、 【Leanabell-Prover】形式推理中的后训练扩展
1、【谷歌发布全新TPU芯片】谷歌推出第七代TPU芯片Ironwood,专为推理和思考型AI模型设计
谷歌刚刚宣布推出第七代TPU芯片Ironwood,这是首款专为"思考型"推理AI模型打造的TPU芯片!据介绍,Ironwood将提供两种规格:256芯片配置和9,216芯片配置。
主要亮点:
- 首款为"思考型"推理AI模型构建的TPU
- 9,216芯片配置拥有惊人的42.5 Exaflops计算能力
- 能效比较上一代提升2倍
- 单芯片算力达4,614 TFLOPs
- 每芯片192GB HBM内存(比上一代多6倍)
- 7.2 Tbps HBM带宽(提升4.5倍)
- 1.2 Tbps互连带宽,实现芯片间无缝通信
- 采用先进的液冷技术
- 预计2025年晚些时候上市
官方博客:https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
2、 Unsloth发布的教程:如何运行和微调Llama 4
AI研究者Daniel Chen分享了对Llama 4模型架构的深入分析,揭示了许多技术细节:
- Maverick模型混合使用MoE层和密集层,每隔一层使用MoE结构
- Scout模型在QK上使用L2范数(不是QK范数)
- 两种模型的专家数量n_experts均为1
- 官方代码库使用torch.bmm(非高效实现)
- Maverick模型中的第1、3、45层MoE是"特殊"层
- 使用8192分块注意力机制
更多细节:
-
动态量化过程中,Maverick的第1、3和45层不能充分饱和——即某些专家从未被激活
-
除每4层外,所有层都使用8192分块注意力
-
Scout不使用"QK范数",而是仅对Q和K应用L2范数
-
合并门控和上投影不允许4bit/8bit工作
-
现在不使用系统提示!有趣的是,<|eom|>有时会在推理过程中出现
-
Llama 4不对路由器logits进行标准化
-
模型性能方面,可以验证Llama 4 Scout在MMLU上的表现约为80%
教程链接:https://docs.unsloth.ai/basics/tutorial-how-to-run-and-fine-tune-llama-4
3、 【精简推理强化学习】研究表明:简洁并不影响准确性,反而能提升LLM表现
这篇新论文挑战了"更长回答能提高准确率"的观点,提出了一种通过强化学习促进LLM简洁准确推理的新训练策略,并提供了理论和实证证据,表明简洁通常与更好的性能相关。
主要发现:
- 长≠更好的推理 研究者数学证明了PPO强化学习倾向于生成不必要的长回答,尤其是当答案错误时。令人惊讶的是,在推理和非推理模型中,更短的输出与正确答案更相关。
- 两阶段RL促进推理+简洁 他们引入两阶段强化学习策略:(1)对难题训练以构建推理能力(长度可能增加),然后(2)对可解决的任务进行微调,以实现简洁的思维链,且不损害准确性。仅第二阶段就能显著减少token使用量——超过50%——且不损失准确率。
- 少量数据也有效 该方法仅需4-8个训练样本就能成功,在数学和STEM基准测试上都取得巨大收益。例如,在MMLU-STEM上,准确率提升了+12.5%,同时将响应长度减少了2倍以上。
- 低采样下表现更佳 后训练模型即使在温度降至0时仍保持鲁棒性。在温度=0时,微调模型比基线模型表现高出10-30%,显示出增强的确定性性能。
- 实用价值 除了改善模型输出外,此方法还减少延迟、成本和token使用量,使LLM更易部署。作者还建议在PPO中设置λ<1,以避免不稳定性并鼓励正确的响应塑造。
论文链接:https://arxiv.org/abs/2504.05185
4、 【步进式强化学习】SWiRL:多步骤推理和工具使用的新方法
这篇研究提出了一种名为"步进式强化学习"(SWiRL)的新方法,专门针对多步优化场景。随着关注点转向更复杂的推理和代理任务,语言模型需要在生成解决方案前进行多步文本生成、推理和环境交互。
主要内容:
- SWiRL方法迭代生成多步推理和工具使用数据,然后从这些数据中学习
- 采用简单的步进分解,将每个多步轨迹分解为对应原始模型每个动作的多个子轨迹
- 对这些子轨迹应用合成数据过滤和RL优化
实验结果表明,SWiRL在多个基准测试中表现优异:
- 在GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA上,相对准确率分别提高了21.5%、12.3%、14.8%、11.1%和15.3%
- 令人兴奋的是,该方法表现出跨任务泛化能力:例如,仅在HotPotQA(文本问答)上训练就能使GSM8K(数学数据集)的零样本性能相对提高16.9%
论文链接:https://arxiv.org/abs/2504.04736
5、 【Skywork R1V】突破性多模态推理模型,结合思维链
Skywork R1V是一个多模态推理模型,通过高效的多模态迁移方法将R1系列大语言模型扩展到视觉模态。
主要特点:
- 利用轻量级视觉投影器,实现无缝多模态适应,无需重新训练基础语言模型或视觉编码器
- 提出混合优化策略,结合迭代监督微调(SFT)和群组相对策略优化(GRPO),显著提高跨模态集成效率
- 引入自适应长度思维链蒸馏方法,动态优化推理链长度,提高推理效率并防止过度思考
实证评估显示,仅有38B参数的Skywork R1V在性能上具有竞争力:
- 在MMMU基准测试上得分69.0
- 在MathVista上得分67.5
- 同时保持强大的文本推理性能,在AIME上得分72.0,在MATH500上得分94.0
论文链接:https://arxiv.org/abs/2504.05599
6、 【Leanabell-Prover】形式推理中的后训练扩展
该研究探讨了自动定理证明(ATP)的整个后训练过程,旨在将其与自然语言推理模型的突破保持一致。
主要工作:
- 使用混合数据集对当前ATP模型进行持续训练,该数据集包含大量陈述-证明对,以及旨在纳入模拟人类推理和假设改进的认知行为的附加数据
- 探索使用Lean 4编译器返回的结果奖励进行强化学习
- 通过设计的持续训练和强化学习过程,成功改进了现有的形式证明器,包括DeepSeek-Prover-v1.5和Goedel-Prover
性能突破:
- 在MiniF2F上实现了59.8%的通过率(pass@32),达到了整个证明生成领域的最先进性能
论文链接:https://arxiv.org/abs/2504.06122
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】