大模型论文 | 谷歌发布全新TPU芯片、如何运行和微调Llama 4

最新推荐文章于 2025-05-21 22:22:30 发布

大模型微调部署

最新推荐文章于 2025-05-21 22:22:30 发布

阅读量604

点赞数 17

文章标签： llama 人工智能自然语言处理 LLM ai 大模型

本文链接：https://blog.csdn.net/star_nwe/article/details/147114252

版权

1、【谷歌发布全新TPU芯片】谷歌推出第七代TPU芯片Ironwood，专为推理和思考型AI模型设计
2、 Unsloth发布的教程：如何运行和微调Llama 4
3、【精简推理强化学习】研究表明：简洁并不影响准确性，反而能提升LLM表现
4、【步进式强化学习】SWiRL：多步骤推理和工具使用的新方法
5、【Skywork R1V】突破性多模态推理模型，结合思维链
6、【Leanabell-Prover】形式推理中的后训练扩展

1、【谷歌发布全新TPU芯片】谷歌推出第七代TPU芯片Ironwood，专为推理和思考型AI模型设计

在这里插入图片描述

谷歌刚刚宣布推出第七代TPU芯片Ironwood，这是首款专为"思考型"推理AI模型打造的TPU芯片！据介绍，Ironwood将提供两种规格：256芯片配置和9,216芯片配置。

主要亮点：

首款为"思考型"推理AI模型构建的TPU
9,216芯片配置拥有惊人的42.5 Exaflops计算能力
能效比较上一代提升2倍
单芯片算力达4,614 TFLOPs
每芯片192GB HBM内存（比上一代多6倍）
7.2 Tbps HBM带宽（提升4.5倍）
1.2 Tbps互连带宽，实现芯片间无缝通信
采用先进的液冷技术
预计2025年晚些时候上市

官方博客：https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/

2、 Unsloth发布的教程：如何运行和微调Llama 4

在这里插入图片描述

AI研究者Daniel Chen分享了对Llama 4模型架构的深入分析，揭示了许多技术细节：

Maverick模型混合使用MoE层和密集层，每隔一层使用MoE结构
Scout模型在QK上使用L2范数（不是QK范数）
两种模型的专家数量n_experts均为1
官方代码库使用torch.bmm（非高效实现）
Maverick模型中的第1、3、45层MoE是"特殊"层
使用8192分块注意力机制

更多细节：

动态量化过程中，Maverick的第1、3和45层不能充分饱和——即某些专家从未被激活
除每4层外，所有层都使用8192分块注意力
Scout不使用"QK范数"，而是仅对Q和K应用L2范数
合并门控和上投影不允许4bit/8bit工作
现在不使用系统提示！有趣的是，<|eom|>有时会在推理过程中出现
Llama 4不对路由器logits进行标准化
模型性能方面，可以验证Llama 4 Scout在MMLU上的表现约为80%

教程链接：https://docs.unsloth.ai/basics/tutorial-how-to-run-and-fine-tune-llama-4

3、【精简推理强化学习】研究表明：简洁并不影响准确性，反而能提升LLM表现

在这里插入图片描述

这篇新论文挑战了"更长回答能提高准确率"的观点，提出了一种通过强化学习促进LLM简洁准确推理的新训练策略，并提供了理论和实证证据，表明简洁通常与更好的性能相关。

主要发现：

长≠更好的推理 研究者数学证明了PPO强化学习倾向于生成不必要的长回答，尤其是当答案错误时。令人惊讶的是，在推理和非推理模型中，更短的输出与正确答案更相关。
两阶段RL促进推理+简洁 他们引入两阶段强化学习策略：(1)对难题训练以构建推理能力（长度可能增加），然后(2)对可解决的任务进行微调，以实现简洁的思维链，且不损害准确性。仅第二阶段就能显著减少token使用量——超过50%——且不损失准确率。
少量数据也有效 该方法仅需4-8个训练样本就能成功，在数学和STEM基准测试上都取得巨大收益。例如，在MMLU-STEM上，准确率提升了+12.5%，同时将响应长度减少了2倍以上。
低采样下表现更佳 后训练模型即使在温度降至0时仍保持鲁棒性。在温度=0时，微调模型比基线模型表现高出10-30%，显示出增强的确定性性能。
实用价值 除了改善模型输出外，此方法还减少延迟、成本和token使用量，使LLM更易部署。作者还建议在PPO中设置λ<1，以避免不稳定性并鼓励正确的响应塑造。