大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs Via Reinforcement Learning
【要点】:本文介绍了DeepSeek-R1系列模型,通过大规模强化学习训练,实现了零样本微调的推理能力,并提出了DeepSeek-R1模型以解决readability和语言混合问题,达到与OpenAI-o1-1217相当的性能水平。
【方法】:采用大规模强化学习训练DeepSeek-R1-Zero模型,并在此基础上引入多阶段训练和冷启动数据的DeepSeek-R1模型,以提升推理性能和解决语言混合问题。
【实验】:实验使用了多个规模的数据集进行训练和评估,最终DeepSeek-R1在推理任务上达到与OpenAI-o1-1217相当的性能,具体数据集名称未在摘要中提及,但论文中提到开源了DeepSeek-R1-Zero、DeepSeek-R1和基于Qwen和Llama的六个紧凑模型。
【链接】:https://www.aminer.cn/pub/6791acbaae8580e7ffddbd04
Scaling up Test-Time Compute with Latent Reasoning:A Recurrent Depth Approach
【要点】:本文提出了一种新型语言模型架构,通过在潜在空间进行隐式推理,实现测试时的计算扩展,无需额外训练数据即可提升推理性能。
【方法】:模型通过迭代一个循环块,测试时可以展开到任意深度,与主流通过生成更多标记来扩展计算的方法不同。
【实验】:作者将概念验证模型扩展到35亿参数和8000亿个标记,并在推理基准测试中展示了模型的性能提升,最高可达相当于500亿参数的计算负载。
【链接】:https://www.aminer.cn/pub/67a96bc8ae8580e7ffb4b3fd
Sa2VA: Marrying SAM2 with LLaVA
for Dense Grounded Understanding of Images and Videos
【要点】:本研究提出了Sa2VA,一种首个用于密集型图像和视频 grounded 理解的统一模型,通过结合SAM-2和LLaVA,实现了对多种模态和任务的广泛支持。
【方法】:Sa2VA通过将SAM-2与LLaVA结合,统一了文本、图像和视频到共享的LLM token空间,并使用LLM生成指导SAM-2产生精确遮罩的指令token。
【实验】:研究使用了Ref-SAV数据集,包含超过72k个复杂视频场景中的对象表达,实验结果表明Sa2VA在多个任务上达到了最新技术水平,特别是在复杂环境中的视频对象分割任务上。
【链接】:https://www.aminer.cn/pub/677de592ae8580e7ff2d88d5
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
【要点】:本文提出了ReasonFlux模型,通过构建层次化的LLM推理和自适应扩展思维模板,显著提升了大型语言模型在数学推理方面的能力。
【方法】:ReasonFlux模型采用了结构化和通用的思维模板库,结合层级强化学习以及新颖的推理扩展系统,实现了对复杂问题的高效推理。
【实验】:作者使用8个GPU训练了ReasonFlux-32B模型,并在MATH基准测试中取得了91.2%的准确率,平均解决了56.7个问题,超过了OpenAI o1-preview和DeepSeek V3模型,具体数据可在https://github.com/Gen-Verse/ReasonFlux 查阅。
【链接】:https://www.aminer.cn/pub/67aac60bae8580e7ff373833
Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2
【要点】:本文介绍了AlphaGeometry2,一种改进后的几何解题AI系统,它在解决国际数学奥林匹克(IMO)2000-2024年的几何问题上表现超过了平均金牌得主,通过扩展语言模型和引入知识共享机制,显著提高了解题率。
【方法】:研究者在原有AlphaGeometry基础上,扩展了语言模型以解决涉及物体移动和角度、比例、距离线性方程的更难问题,并采用Gemini架构优化语言模型,引入了新的知识共享机制,结合了多个搜索树。
【实验】:实验使用的数据集为IMO 2000-2024年的几何问题,AlphaGeometry2的解题率从之前的54%提升至84%,并在IMO 2024中达到银牌标准。
【链接】:https://www.aminer.cn/pub/67a5791eae8580e7ffd1bc65