多模态、测试时对齐、大模型Agent、RAG优化、模型分布训练等

引言

紧跟技术发展趋势,快速了解大模型最新动态。今天继续总结最近一周的研究动态,本片文章共计梳理了10篇有关大模型(LLMs)的最新研究进展,其中主要包括:大模型测试时对齐方法、长上下文编码器、大模型Agent、RAG检索增强、大模型指令遵循提升、开源多模态模型、开源大模型、TTS语音合成、分布式训练等热门研究。

华盛顿 | 测试时对齐

图片

https://arxiv.org/pdf/2504.03790

当无法对模型进行微调时,增加测试时计算量是提升语言模型性能的一个方法,但现有测试时搜索方法因过度优化有缺陷的奖励代理,随着计算量增加质量会下降。本文作者提出「QALIGN,一种新测试时对齐方法」,随着测试时计算量增加,会收敛到为每个单独提示采样最优对齐分布,借助马尔可夫链蒙特卡洛在文本生成的最新进展,「无需修改底层模型或访问 logits 即可实现更好对齐输出」

图片

在数学推理基准测试(GSM8K 和 GSM-Symbolic)上,使用任务特定奖励模型,QALIGN 比现有测试时计算方法(如最佳 n 选一和多数投票)表现更好;在更真实奖励模型上,也优于直接偏好优化等方法。

UCLA | 医学长上下文编码器

图片

https://arxiv.org/pdf/2504.03964

自BERT出现后,仅Transformer编码器架构在NLP领域就起到关键作用,尽管近期解码器模型在生成类任务上受关注,但编码器在一些需精细语义区分的任务上更具优势,且近年来架构上也有诸多创新。

图片

本文作者在大规模生物医学文献、临床笔记和医学本体上预训练出Clinical ModernBERT,「它基于ModernBERT架构,融入旋转位置Embedding、Flash Attention等升级,将上下文长度拓展至8192个token」,针对生物医学和临床领域专门调整,能为长上下文任务生成语义丰富的表示。最后作者通过分析预训练权重和在一系列临床NLP基准测试上的实证评估,验证了其出色性能。

Skoltech | LLM自适应检索方法

图片

https://arxiv.org/pdf/2505.04253

大型语言模型(LLMs)在问答(QA)等任务中表现出色,但易出现幻觉,检索增强生成(RAG)虽能缓解此问题,却计算成本高且有引入错误风险,现有自适应检索方法依赖LLM不确定性估计,效率低不实用。

图片

为此,「本文作者提出基于外部信息(如实体流行度、问题类型等)的轻量级LLM独立自适应检索方法」,研究27个特征及混合组合。在6个QA数据集上评估,该方法与复杂LLM方法性能相当,效率显著提高,减少了LLM调用次数。

PSU |多Agent故障归因自动化

图片

https://arxiv.org/pdf/2505.00212

在LLM多Agent系统中,故障归因即确定导致任务失败的Agent及步骤,对系统调试至关重要,但目前该过程多为手动,劳动密集且依赖专业知识。

图片

本文作者提出并定义了LLM多Agent系统的自动化故障归因研究领域,引入Who&When数据集,包含127个系统的故障日志及精细标注,基于此开发评估了三种自动化故障归因方法。实验结果表明:在识别故障责任Agent上准确率为53.5%,定位故障步骤准确率仅14.2%,部分方法表现低于随机水平,像OpenAI o1等SOTA推理模型也难以实用,凸显了该任务复杂性及需进一步研究。

 

复旦 | LLMs指令遵循能力提升

图片

https://arxiv.org/pdf/2505.07591

指令遵循用于评估大型语言模型(LLMs)生成符合用户约束输出的能力,但现有基准多依赖模板化约束提示,缺乏现实多样性且限制性能细致评估。为此,本文作者提出了多维约束框架,「涵盖三种约束模式、四类约束(分为十三个子类)和四个难度等级」,基于此开发自动化指令生成流程,进行约束扩展、冲突检测和指令重写,生成1200个可验证指令遵循测试样本。

图片

评估19个LLMs,发现不同约束形式下性能差异大,如从一级77.67%降至四级32.96%。利用该方法为强化学习生成数据,显著提升指令遵循能力且不降低通用性能,主要源于模型注意力模块参数修改,增强约束识别与遵循。

a-m-team | AM-Thinking-v1模型

图片

https://arxiv.org/pdf/2505.08311

在开源语言模型领域,如何在32B规模实现优异推理能力是重要挑战。本文作者基于开源的Qwen2.5-32B基础模型,利用精心设计的后训练流程,结合监督微调和强化学习,构建了AM-Thinking-v1。开源32B模型其相关能力能力已经赶超DeepSeek-R1-671B大模型。

图片

该模型在AIME 2024、AIME 2025、LiveCodeBench等推理基准测试中,分别取得85.3、74.4、70.3的高分,数学和编码能力出色,与领先MoE模型相媲美,且已在Hugging Face开源。

小米 |MiMo-7B模型

图片

https://arxiv.org/pdf/2505.07608

大型语言模型在推理任务上有待提升,需优化预训练和后训练阶段。

图片

本文作者在「预训练时增强数据预处理流程」,采用三阶段数据混合策略,用25万亿标记训练MiMo-7B-Base,增加多标记预测目标提升性能和推理速度;「后训练时整理13万可验证数学编程问题数据集用于强化学习」,整合测试难度驱动代码奖励方案,采用策略性数据重采样稳定训练。实验结果显示MiMo-7B-Base,超越更大32B模型,最终RL调整模型MiMo-7B-RL在数学、代码和通用推理任务上表现优异,超过OpenAI o1-mini。

MiniMax |自回归TTS模型

图片

https://arxiv.org/pdf/2505.07916

基于编解码器的模型推动了语音合成(TTS)技术的显著进步,其在大规模数据集上训练后,基于几秒的参考音频就可以生成高质量语音,其应用范围非常广泛。

图片

本文作者提出MiniMax-Speech,这是一个基于Transformer的自回归TTS模型,「其关键创新能从参考音频提取音色特征而无需转录,以零样本方式生成与参考音色一致的富有表现力的语音,还支持单样本声音克隆,且通过提出的Flow-VAE提升合成音频整体质量,该模型支持32种语言」。在多个客观和主观评估指标上表现出色,于客观声音克隆指标(词错误率和说话者相似性)上达到SOTA水平,并在公共TTS Arena排行榜上位居榜首,还因说话者编码器的稳健和解耦表征,可拓展应用于任意声音情感控制、文本到声音以及专业声音克隆等,无需修改基础模型。

字节 |视觉语言模型:Seed1.5-VL

图片

https://arxiv.org/pdf/2505.07062

推进通用多模态理解与推理是人工智能领域的重要目标,但现有模型在多模态任务中存在性能瓶颈。本文作者构建了Seed1.5-VL,「由 532M 参数视觉编码器和 20B 活动参数的混合专家(MoE)LLM 组成」,尽管架构相对紧凑,但表现出色。

图片

在 60 个公共基准测试中,有 38 个达到最先进的性能,在 GUI 控制和游戏玩法等以代理为中心的任务上,超越了 OpenAI CUA 和 Claude 3.7 等领先多模态系统,还展现出强大的多模态推理能力。

 

全球分布式RL训练推理模型

图片

传统集中式训练存在局限,如资源受限、易受单点故障影响等。本文作者提出了INTELLECT-2,「这是首个全球分布式强化学习(RL)训练运行的320亿参数语言模型」。与传统的集中式训练不同,INTELLECT-2利用完全异步的强化学习。

图片

为了使这种独特的基础设施能够进行训练运行,本文作者从零开始构建了各种组件:「本文作者提出了PRIME-RL,这是本文作者为分布式异步强化学习专门构建的训练框架」,它基于诸如TOPLOC(验证来自不可信推理工作者的rollout)和SHARDCAST(高效地从训练节点向推理工作者广播策略权重)等新组件之上。除了基础设施组件外,

本文作者还提出了对标准GRPO训练配方和数据过滤技术的修改,这些修改对于实现训练稳定性和确保模型成功学习其训练目标至关重要。实验结果显示,INTELLECT-2训练稳定,成功学习训练目标,「优于现有推理模型QwQ-32B」,并且相关代码和数据已开源。

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值