大模型日报｜今日必读的9篇大模型论文

最新推荐文章于 2025-04-01 16:00:45 发布

AI大模型头条

最新推荐文章于 2025-04-01 16:00:45 发布

阅读量1.4k

点赞数 21

分类专栏：每日大模型论文文章标签：人工智能机器学习语言模型深度学习 chatgpt

本文链接：https://blog.csdn.net/AMiner2006/article/details/136501934

版权

每日大模型论文专栏收录该内容

178 篇文章

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.Cognition is All You Need

最近对如由大型语言模型（LLMs）驱动的聊天机器人等对话式人工智能（AI）工具在复杂的现实世界知识工作中的应用进行的研究表明，这些工具在推理和多步骤问题解决方面存在局限性。具体来说，虽然现有的聊天机器人可以模拟浅层推理和理解，但随着问题复杂性的增加，它们很容易出错。

这些系统之所以无法处理复杂的知识工作，是因为它们没有进行任何实际认知。Mindcorp 公司研究团队提出了一个在 LLMs 之上和之外实现编程定义的神经符号认知的更高层次框架——Cognitive AI。具体来说，研究团队提出了 Cognitive AI 的双层功能架构，作为 AI 系统的路线图，可以执行复杂的多步骤知识工作。他们提出，Cognitive AI 是更高形式的AI（如 AGI）进化的必要先导，并特别声称 AGI 无法通过概率方法单独实现。

最后，研究团队讨论了对 LLMs、AI 采用周期和 Cognitive AI 商业开发的影响。

论文链接：
https://arxiv.org/abs/2403.02164

2.迈向整体智能的 Agent AI

大型基础模型的最新进展极大地增强了我们对开放世界环境中感官信息的理解。在利用基础模型的力量时，人工智能（AI）研究必须从过度的还原论转向强调系统的整体功能。

来自微软的研究团队及其合作者强调开发 AI 智能体（Agent AI）——一种将大型基础模型整合到智能体行动中的具身系统。AI 智能体这一新兴领域横跨现有的各种体现式和基于智能体的多模态交互，包括机器人、游戏和医疗保健系统等。研究团队提出了一种新颖的大型行动模型——Agent Foundation Model 来实现具身智能行为。

在这一想法的基础上，研究团队讨论了AI 智能体如何在各种领域和任务中展现出非凡的能力，挑战我们对学习和认知的理解。此外，他们还从跨学科的角度讨论了AI 智能体的潜力，强调了科学话语中的 AI 认知和意识。这些讨论将成为未来研究方向的基础，并鼓励更广泛的社会参与。

论文链接：
https://arxiv.org/abs/2403.00833

3.TroubleLLM：向红队专家看齐

大型语言模型（LLMs）已成为各种自然语言任务的最先进解决方案，并被整合到现实世界的应用中。然而，LLMs 可能会表现出不良的安全问题，如社会偏见和有毒内容，因而具有潜在的危害性。因此，在部署之前必须对其安全问题进行评估。然而，现有方法生成的测试提示的质量和多样性还远远不能令人满意。这些方法不仅耗费大量人力和预算成本，而且在 LLM 应用的特定测试领域中，测试提示的生成缺乏可控性。

本着将 LLM 用于 LLM 测试的理念，来自蚂蚁集团和香港中文大学的研究团队提出了第一个用于生成有关 LLM 安全问题的可控测试提示的 LLM——TroubleLLM。实验和人工评估证明了 TroubleLLM 在生成质量和生成可控性方面的优越性。

论文链接：
https://arxiv.org/abs/2403.00829

4.HanDiffuser：从文本到图像生成逼真的手部外观

文生图模型可以生成高质量的人类形象，但在生成手部的过程中会失去真实感。常见的问题包括不规则的手部姿势、形状、不正确的手指数量以及物理上难以置信的手指方向。为了生成具有逼真手部的图像，来自石溪大学和 Adobe Research 的研究团队提出了一种名为 HanDiffuser 的基于扩散的新型架构，通过在生成过程中注入手部嵌入实现逼真效果。

HanDiffuser 由两部分组成：一个是Text-to-Hand-Params 扩散模型，用于根据输入文本提示生成 SSMPL-Body 和 MANO-Hand 参数；另一个是文本引导的 Hand-Params-to-Image 扩散模型，用于根据前一部分生成的提示和手部参数合成图像。研究团队结合了手部表征的多个方面，包括三维形状和关节级手指位置、方向和衔接，以便在推理过程中实现鲁棒的学习和可靠的性能。实验和用户研究证明 HanDiffuser 在生成高质量手部图像方面的有效性。

论文链接：
https://arxiv.org/abs/2403.01693

5.EyeGPT：大模型驱动的眼科助手

人工智能（AI）具有改善临床工作流程和加强医疗沟通的潜力，因此在医疗咨询领域备受关注。然而，由于医疗信息的复杂性，用普通世界知识训练的大型语言模型（LLM）可能无法在专家级水平上处理与医疗相关的任务。

来自香港理工大学、Centre for Eye and Vision Research (CEVR)、中山大学、上海交通大学和眼科临床医学中心的研究团队提出了专为眼科设计的专业 LLM——EyeGPT，它采用了角色扮演、微调和检索增强生成三种优化策略。特别是，研究团队提出了一个全面的评估框架，包含一个涵盖眼科的各个亚专科、不同的用户和不同的查询意图的多样化数据集。

此外，研究团队还考虑了多种评估指标，包括准确性、可理解性、可信度、共鸣和幻觉比例。通过评估不同 EyeGPT 变体的性能确定了最有效的变体，它在可理解性、可信度和移情能力方面与人类眼科医生的水平相当（all Ps>0.05）。该研究为今后的研究提供了宝贵的见解，有助于全面比较和评估眼科专业 LLM 的不同开发策略。其潜在益处包括改善患者的眼科护理体验和优化眼科医生的服务。

论文链接：
https://arxiv.org/abs/2403.00840

6.ChatDiet：个性化食品推荐 AI 聊天机器人

食物对健康影响深远，我们需要先进的营养导向型食物推荐服务。传统方法往往缺乏个性化、可解释性和互动性等关键要素。虽然大语言模型（LLMs）带来了可解释性和可说明性，但独立使用它们却无法实现真正的个性化。

加州大学尔湾分校研究团队提出了一个由 LLM 驱动的新型框架——ChatDiet，它专为个性化营养导向食物推荐聊天机器人而设计。ChatDiet 整合了个人和群体模型，并辅以一个协调器（ orchestrator）来可无缝检索和处理相关信息。能够根据个人用户的偏好动态提供个性化和可解释的食物推荐。

研究团队通过一项案例研究对 ChatDiet 进行了评估，他们建立了一个因果个人模型来估计个人的营养效果。评估展示了有效性达 92% 的推荐测试和说明性的对话实例，这凸显了ChatDiet在可解释性、个性化和互动性方面的优势。

论文链接：
https://arxiv.org/abs/2403.00781

7.RegionGPT：实现区域理解视觉语言模型

通过将大型语言模型（LLMs）与图像-文本对进行整合，视觉语言模型（VLMs）取得了突飞猛进的发展，但由于视觉编码器的空间感知能力有限，而且使用的是缺乏详细的特定区域描述的粗粒度训练数据，因此它们在详细的区域视觉理解方面举步维艰。

为此，来自香港大学和英伟达的研究团队推出了一个专为复杂区域级字幕和理解而设计的新型框架——RegionGPT（RGPT）。RGPT 通过对 VLMs 现有视觉编码器进行简单而有效地修改，增强了区域表征的空间意识。研究团队通过在训练和推理阶段整合任务引导的指令提示，进一步提高了需要特定输出范围的任务的性能，同时保持了模型在通用任务中的通用性。

此外，研究团队还开发了一个自动区域标题（caption）数据生成管道，用详细的区域级标题来丰富训练集。通用的 RGPT 模型可以有效地应用于一系列区域级任务并能够显著提高其性能，包括但不限于复杂的区域描述、推理、对象分类和引用表达式理解。

论文链接：
https://arxiv.org/abs/2403.02330
项目地址：
https://guoqiushan.github.io/regiongpt.github.io/

8.AtomoVideo：高保真图像视频生成器

基于卓越的文生图技术，视频生成技术取得了显著的快速发展。阿里巴巴团队提出了一种高保真图像视频生成框架 AtomoVideo，它基于多粒度图像注入实现了生成的视频与给定图像的更高保真度。

得益于高质量的数据集和训练策略，AtomoVideo 在保持出色的时间一致性和稳定性的同时，实现了更高的运动强度。这一架构可灵活扩展到视频帧预测任务，通过迭代生成实现长序列预测。此外，由于采用了适配器训练的设计，AtomoVideo 可以很好地与现有的个性化模型和可控模块相结合。通过定量和定性评估，AtomoVideo 与流行的方法相比取得了更优越的结果。

论文链接：
https://arxiv.org/abs/2403.01800
项目地址：
https://atomo-video.github.io/

9.MovieLLM：利用人工智能生成的电影增强对长视频的理解

多模态模型的开发标志着机器在理解视频方面迈出了重要一步。这些模型在分析短视频片段方面大有可为。然而，当涉及电影等较长的格式时，它们往往力不从心。主要障碍在于缺乏高质量、多样化的视频数据，以及收集或注释此类数据所需的大量工作。

为此，来自复旦大学和腾讯的研究团队提出了一个为长视频创建合成的高质量数据的新框架——MovieLLM。该框架利用 GPT-4 和文生图模型的强大功能，生成详细的脚本和相应的视觉效果。MovieLLM 以其灵活性和可扩展性脱颖而出，成为传统数据收集方法的优越替代方案。

实验证明，MovieLLM 生成的数据显著提高了多模态模型在理解复杂视频叙事方面的性能，克服了现有数据集在稀缺性和偏差方面的局限性。

论文链接：
https://arxiv.org/abs/2403.01422
项目地址：
https://deaddawn.github.io/MovieLLM/