大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
GRAPE: Generalizing Robot Policy via Preference Alignment
【要点】:本文提出GRAPE方法,通过偏好对齐提升视觉语言行动(VLA)模型在不同任务中的泛化能力,实现更高的成功率与效率。
【方法】:GRAPE通过轨迹级别的偏好对齐,隐式学习成功和失败尝试中的奖励,分解复杂操作任务为独立阶段,并通过大型视觉语言模型提出的时空关键点自动引导偏好建模。
【实验】:作者在真实世界和模拟环境中对GRAPE进行了评估,使用的数据集为标准机器人操作任务集,结果显示GRAPE提升了现有VLA模型的性能,将域内和未见任务的成功率分别提高了51.79%,并将碰撞率降低了44.31步长,效率提升了11.15步长。
【链接】:https://www.aminer.cn/pub/674d27b0ae8580e7ffb7ab3d
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning Via MCTS
【要点】:本文提出了HiAR-ICL,一种新的高阶自动化推理范式,通过抽象思维模式而非具体示例来提升大型语言模型在复杂数学推理任务中的性能。
【方法】:HiAR-ICL通过引入五种原子推理动作作为构建链式结构模式的基本组件,并使用蒙特卡洛树搜索(MCTS)探索推理路径和构建思维卡片来指导后续推理。
【实验】:本研究使用Qwen2.5-7B-Instruct模型在MATH数据集上进行实验,HiAR-ICL实现了79.6%的最先进准确率,超过了GPT-4o的76.6%和Claude 3.5的71.1%。
【链接】:https://www.aminer.cn/pub/6747dcbbae8580e7ffe73efe
On Domain-Specific Post-Training for Multimodal Large Language Models
要点】:本文系统研究了通过后训练对多模态大型语言模型进行领域自适应的方法,创新性地提出了数据合成、训练流程以及任务评估的新策略。
【方法】:作者使用开源模型开发了一种视觉指令合成器,生成多样化的视觉指令任务,并采用单阶段训练流程以提高领域特定后训练的任务多样性。
【实验】:研究者在生物医学和食品两个领域进行实验,通过后训练不同来源和规模的多模态大型语言模型(如Qwen2-VL-2B、LLaVA-v1.6-8B、Llama-3.2-11B),并在各种领域特定任务上评估模型的性能。实验所使用的数据集名称未在摘要中提及,但将开源实现以支持进一步研究。
【链接】:https://www.aminer.cn/pub/674d27d4ae8580e7ffb7f3bd
Video Depth without Video Models
【要点】:本文提出了一种名为RollingDepth的方法,将单帧图像深度估计模型扩展到视频深度估计,通过结合多帧估计和优化算法,有效提高了长视频的深度估计准确性。
【方法】:作者通过改进单帧图像的潜在扩散模型(LDM),并利用多帧信息和一个鲁棒的优化注册算法,将短视频片段映射为深度片段,并整合成连贯的视频深度。
【实验】:实验中,作者使用RollingDepth模型处理了包含数百帧的长视频,并在多个数据集上验证了其性能,结果显示该方法相比专用的视频深度估计器和单帧模型有更高的准确性。具体数据集名称未在摘要中提及。
【链接】:https://www.aminer.cn/pub/674d27b0ae8580e7ffb7aac1
Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models
【要点】:本文提出了Auto-RAG,一种基于大型语言模型(LLM)强大决策能力的自主迭代检索模型,有效提升检索增强生成(RAG)的性能。
【方法】:通过多轮对话,Auto-RAG系统性地规划检索和优化查询,自主合成基于推理的决策指令。
【实验】:在六个基准测试中,使用Auto-RAG进行实验,结果表明模型能有效利用LLM的推理和决策能力,并可根据问题难度和检索知识的效用自主调整迭代次数,无需人工干预。代码和数据集已公开。
【链接】:https://www.aminer.cn/pub/674d27b0ae8580e7ffb7abca