实时追踪科研动态｜学习使用工具创建多模态代理，11.10精选新论文

AMiner学术搜索和科技情报挖掘

已于 2023-11-13 10:47:46 修改

阅读量147

点赞数

文章标签：学习多模态语言模型人工智能论文阅读论文笔记

于 2023-11-13 10:45:03 首次发布

本文链接：https://blog.csdn.net/ai_conf/article/details/134371609

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

2023年11月10日精选新论文列表：

1.LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

论文介绍了一种名为LCM-LoRA的通用稳定扩散加速模块。潜在一致性模型（LCMs）在加速文本到图像生成任务方面取得了显著成果，只需最少的推理步骤就能生成高质量的图像。LCMs是从预训练的潜在扩散模型（LDMs）中提炼出来的，仅需要约32个A100 GPU的训练小时。本报告从两个方面扩展了LCMs的潜力：首先，通过将LoRa蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型，我们扩大了LCM的应用范围，使得模型具有更少的内存消耗，实现了更优秀的图像生成质量。其次，我们将通过LCM蒸馏获得的LoRa参数识别为一种通用的稳定扩散加速模块，名为LCM-LoRA。LCM-LoRA可以直接插入到各种经过微调的稳定扩散模型或LoRAs中，无需训练，因此它是一种适用于各种图像生成任务的通用加速器。与以前的数值PF-ODE求解器（如DDIM、DPM-Solver）相比，LCM-LoRA可以被视为一种具有强大泛化能力的插件神经PF-ODE求解器。

https://aminer.cn/pub/654d9745939a5f40826b39ed/?f=cs

2.GPT4All: An Ecosystem of Open Source Compressed Language Models

论文介绍了 GPT4All 项目,一个旨在普及大型语言模型(LLMs)的流行开源库。论文阐述了 GPT4All 模型的技术细节,以及 GPT4All 项目从单个模型到完整开源生态系统的演变过程。作者希望这篇论文不仅能对 GPT4All 模型的原始版本提供技术概述,还能成为 GPT4All 开源生态系统后续发展的案例研究。

https://www.aminer.cn/pub/654d9565939a5f408268aae3/?f=cs

3.On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

论文探讨了自动驾驶领域中视觉语言模型（VLM）的应用。传统的自动驾驶技术在感知、决策和控制系统方面的集成受到了复杂驾驶环境和其他道路用户意图理解的限制。而视觉语言模型的出现为实现完全自动驾驶开辟了新的领域。文章全面评估了最新的视觉语言模型 GPT-4V(ision)，并探索了其在自动驾驶场景中的能力和应用。通过基本场景识别到复杂因果推理和各种条件下的实时决策，该模型在场景理解和因果推理方面表现出优于现有自动驾驶系统的优越性能。尽管在方向判断、交通灯识别、视觉接地和空间推理任务方面仍存在挑战，但该研究强调了进一步研究和开发的重要性。项目已开源在 GitHub 上，供感兴趣的各方访问和使用。

https://www.aminer.cn/pub/654d96ba939a5f40826a7dd8/?f=cs

4.LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

论文介绍了一种名为LLaVA-Plus的多模态助手，它能够扩展大型多模态模型的功能。LLaVA-Plus维护一个预训练的视觉和视觉语言模型的技能库，并根据用户的输入激活相关的工具来完成实际任务。通过在多模态指令跟随数据上训练，LLaVA-Plus获得了使用工具的能力，包括视觉理解、生成、外部知识检索和组合。实验结果表明，LLaVA-Plus在现有功能上优于LLaVA，并表现出新的功能。它独特的地方在于，图像查询在整个人工智能交互会话中直接接地并积极参与，显著提高了工具使用性能，并实现了新的场景。

https://www.aminer.cn/pub/654d96ff939a5f40826adf41/?f=cs

5.u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

论文介绍了 u-LLaVA 方法,它通过利用大型语言模型(LLM)作为桥梁,将多个专家模型连接起来,以适应下游任务。该方法通过将多模态任务统一在一个大型语言模型中,实现了高效和准确的任务适应。该方法包括将多模态对齐模块和多任务模块集成到 LLM 中,重新组织或重建多类型公共数据集以实现高效的模态对齐和指令跟随,最后从训练过的 LLM 中提取任务特定信息,并将其提供给不同模块以解决下游任务。该框架简单、有效,并在多个基准测试中实现了最先进的性能。同时,该论文也公开发布了他们的模型、生成的数据和代码库。

https://www.aminer.cn/pub/654d96c4939a5f40826a8ae8/?f=cs

6.Prompt Cache: Modular Attention Reuse for Low-Latency Inference

论文介绍了一种名为"Prompt Cache"的方法，用于加速大型语言模型（LLM）的推理过程，通过在不同的LLM提示之间重用注意力状态。"Prompt Cache"通过在推理服务器上预计算和存储经常出现的文本片段（如系统消息、提示模板和上下文提供的文档）的注意力状态，从而有效地重用这些片段。当这些片段出现在用户提示中时，Prompt Cache利用一个模式（schema）来明确定义这些可重用的文本片段，称为提示模块。模式确保了在注意力状态重用过程中的位置准确性，并为用户提供了一个界面来访问其在提示中的缓存状态。通过原型实现，作者评估了Prompt Cache在多个LLM上的效果。结果表明，Prompt Cache显著减少了首次生成token的时间，尤其是在基于文档的问题回答和推荐等较长的提示中。改进程度从GPU推理的8倍到CPU推理的60倍，同时保持输出准确率，且无需修改模型参数。

https://www.aminer.cn/pub/654d956a939a5f408268b280/?f=cs

7.A Survey of Large Language Models in Medicine: Progress, Application, and Challenge

论文综述了医学领域大型语言模型的研究进展、应用和挑战。大型语言模型（LLMs）如 ChatGPT 由于其出色的人类语言理解和生成能力而受到了广泛关注。因此，利用 LLMs 协助医学诊疗成为人工智能和临床医学领域的一个有前景的研究方向。论文全面概述了当前医学 LLMs 的进展、应用和面临的挑战，回答了以下问题：1）什么是 LLMs 以及如何构建医学 LLMs？2）医学 LLMs 的下游表现如何？3）如何将医学 LLMs 应用于实际临床实践？4）使用医学 LLMs 会产生哪些挑战？5）如何更好地构建和使用医学 LLMs？此外，论文还提供了一个不断更新的医学 LLMs 实践指南资源列表，可作为构建实际有效医学 LLMs 的宝贵资源。

https://www.aminer.cn/pub/654d9615939a5f4082699f9d/?f=cs

END

我们在AMiner网站首页添加了“每日精选新论文”专题，可以点击「订阅」和「加入知识库」，获取全部论文信息！

在这里插入图片描述

如果您有任何问题或建议，欢迎随时联系我们。

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实时追踪科研动态｜学习使用工具创建多模态代理，11.10精选新论文

本报告从两个方面扩展了LCMs的潜力：首先，通过将LoRa蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型，我们扩大了LCM的应用范围，使得模型具有更少的内存消耗，实现了更优秀的图像生成质量。论文介绍了一种名为"Prompt Cache"的方法，用于加速大型语言模型（LLM）的推理过程，通过在不同的LLM提示之间重用注意力状态。2）医学 LLMs 的下游表现如何？LLaVA-Plus维护一个预训练的视觉和视觉语言模型的技能库，并根据用户的输入激活相关的工具来完成实际任务。
复制链接

扫一扫