大模型周报丨微软AutoGen揽10k star，清华新推视觉语言基础模型-CogVLM

AMiner学术搜索和科技情报挖掘

于 2023-10-18 16:56:12 发布

阅读量285

点赞数

文章标签： ai LLM 人工智能语言模型微软清华大学

本文链接：https://blog.csdn.net/AI_Conf/article/details/133909995

版权

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文，为了方便大家阅读，只列出了论文标题、作者、AMiner AI综述等信息，如果感兴趣可扫码查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1. COGVLM: VISUAL EXPERT FOR LARGE LANGUAGE MODELS

这篇论文介绍了 CogVLM，一个强大的开源视觉语言基础模型。与流行的浅层对齐方法不同，CogVLM 通过在注意力和 FFN 层中的可训练视觉专家模块，弥合了预训练语言模型和图像编码器之间的差距。因此，CogVLM 能够在不牺牲 NLP 任务性能的情况下，实现视觉语言特征的深度融合。CogVLM-17B 在 10 个经典的跨模态基准测试中取得了最先进的性能，包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC，并且在 VQAv2、OKVQA、TextVQA、COCO captioning 等任务中排名第二，超过了或与 PaLI-X 55B 相媲美。

链接：https://www.aminer.cn/pub/65260ee8cd549670787e1513/?f=cs

2. AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

这篇论文介绍了一个名为 AutoGen 的新框架，它通过多智能体对话框架，使得使用大型语言模型（LLM）的应用程序开发成为可能。AutoGen 的智能体是可定制的、可对话的，并且可以无缝地允许人类的参与。它们可以采用各种模式，结合 LLM、人类输入和工具的使用。AutoGen 的设计提供了多个优点：a) 它优雅地解决了这些 LLM 强大的但有缺陷的生成和推理能力；b) 它利用了人类的理解和智慧，同时通过对智能体之间的对话提供有价值的自动化；c) 它简化了复杂 LLM 工作流程的实施，将其统一为自动化智能体对话。文中还提供了许多不同的例子，展示了开发人员如何使用 AutoGen 轻松有效地解决任务或构建应用程序，范围涵盖编程、数学、运筹学、娱乐、在线决策、问答等等。

链接：https://www.aminer.cn/pub/64dd9b053fda6d7f0622e6e8/?f=cs

3. Octopus: Embodied Vision-Language Programmer from Environmental Feedback

这篇论文介绍了 Octopus，一种新型的视觉语言模型 (VLM)，旨在有效地理解代理人的视觉和文本任务目标，并制定复杂的动作序列和生成可执行的代码。该设计使代理能够熟练地处理各种任务，从模拟器中的日常琐事到复杂视频游戏中的高级交互。Octopus 利用 GPT-4 控制探索性代理在名为 OctoVerse 的实验环境中生成训练数据，即动作蓝图和相应的可执行代码，同时收集反馈以实现强化学习与环境反馈（RLEF）的增强训练方案。通过一系列实验，论文阐明了 Octopus 的功能，并展示了令人信服的结果，证明了所提出的 RLEF 改进了代理的决策。通过开源模型架构、模拟器和数据集，作者希望激发进一步的创新，促进嵌入式人工智能社区的合作应用。

链接：https://www.aminer.cn/pub/6528a864939a5f408257a146/?f=cs

4. Ferret: Refer and Ground Anything Anywhere at Any Granularity

这篇论文介绍了一种名为 Ferret 的新型多模态大型语言模型（MLLM），可以理解图像中任何形状或粒度的空间指称，并准确地将开放词汇描述与实际位置进行关联。为了在 LLM 范式中统一指称和定位，Ferret 采用了一种新颖且强大的混合区域表示方法，将离散坐标和连续特征整合在一起，表示图像中的区域。为了提取各种形状区域的连续特征，我们提出了一种空间感知视觉采样器，擅长处理不同形状之间的不同稀疏性。因此，Ferret 可以接受各种区域输入，如点、边界框和自由形状。为了增强 Ferret 的能力，我们策划了 GRIT 数据集，这是一个包括 110 万样本的全面的指称和定位指令调整数据集，其中包含丰富的分层空间知识，以及 9.5K 难负数据以提高模型鲁棒性。最终得到的模型不仅在经典的指称和定位任务中表现优异，而且在基于区域和定位需求的多模态聊天中大大超越了现有的 MLLM。我们的评估还发现，其描述图像细节的能力显著提高，对象错觉问题明显缓解。代码和数据将在 https://github.com/apple/ml-ferret 上提供。

链接：https://www.aminer.cn/pub/65275736939a5f4082a46c47/?f=cs

5. Lemur: Harmonizing Natural Language and Code for Language Agents

这篇论文介绍了 Lemur 和 Lemur-Chat，这两个开源的语言模型在自然语言和编程能力方面都进行了优化，以作为多功能语言代理的骨干。从语言聊天模型到功能性语言代理的演变，要求模型不仅掌握人类互动、推理和规划，还要确保在相关环境中的地面性。这需要在模型中语言和编程能力的和谐结合。Lemur 和 Lemur-Chat 就是为了解决这个必要性而提出的，它们在两个领域都表现出平衡的能力，与现有开源模型不同，这些模型往往只专注于其中一个领域。通过使用密集的代码语料库进行细致的预训练和在文本和代码数据上进行指令微调，我们的模型在各种文本和编码基准测试的公开开源模型中实现了最先进的平均性能。综合实验证明，Lemur 在现有开源模型中具有优越性，并在涉及人类通信、工具使用和全观察和部分观察环境的各种代理任务方面表现出色。自然语言和编程语言之间的协调使 Lemur-Chat 在代理能力方面显著缩小了与专有模型之间的差距，为开发高级开源代理提供了关键见解，这些代理擅长推理、规划和在环境之间无缝操作。

链接：https://www.aminer.cn/pub/6526243b939a5f4082bc4f09/?f=cs

6. Learn From Model Beyond Fine-Tuning: A Survey

这篇论文对“从模型中学习”（LFM）方法进行了综述。基础模型（FM）在自然语言处理和计算机视觉等领域表现出了卓越的性能，这主要归功于它们理解指示和访问大量高质量数据的能力。然而，由于多种限制，用于大型模型训练的原始数据通常无法获得，因此，基于模型的端到端模型在下游任务中的应用已成为新的研究趋势。LFM 关注基于模型接口的 FM 研究、修改和设计，以便在黑盒环境中更好地了解模型结构和权重，并将模型泛化到下游任务。LFM 技术的研究可以大致分为五个主要领域：模型调整、模型蒸馏、模型重用、元学习和模型编辑。本文从 LFM 的角度对基于 FM 的当前方法进行了全面回顾，以帮助读者更好地了解当前的研究现状和思路。最后，作者总结了这篇综述，并突出了几个需要进一步探索的关键领域和需要研究社区关注的一些开放性问题。本文中研究的相关论文可在此处访问：https://github.com/ruthless-man/Awesome-Learn-from-Model。

链接：https://www.aminer.cn/pub/6528a864939a5f4082579f9d/?f=cs

7. GameGPT: Multi-agent Collaborative Framework for Game Development

这篇论文介绍了一种名为 GameGPT 的多代理协作框架，用于自动游戏开发。该框架基于大型语言模型 (LLM)，已经展示出其自动化和加速软件开发过程的能力。然而，部署 LLM 在生产环境中的主要障碍之一是虚假信息。我们提出了另一种担忧：冗余。我们的框架提出了一系列方法来减轻这两个问题。这些方法包括双重协作和分层方法，以及一些内部词汇，以减轻计划、任务识别和实施阶段中的虚假信息和冗余。此外，还介绍了一种解耦方法，以实现代码生成时更好的精确度。

链接：https://www.aminer.cn/pub/6528a864939a5f4082579f23/?f=cs

8. KwaiYiiMath: Technical Report

这篇论文介绍了 KwaiYiiMath，一种增强 KwaiYiiBase1 数学推理能力的技术报告。通过应用监督微调（SFT）和基于人类反馈的强化学习（RLHF），KwaiYiiMath 在英语和中文数学任务上都有所提升。同时，作者还构建了一个小规模的中国小学数学测试集（简称 KMath），包含 188 个例子，用于评估模型生成的解题过程的正确性。实证研究表明，与类似大小的模型相比，KwaiYiiMath 在 GSM8k、CMath 和 KMath 上分别实现了最先进的（SOTA）性能。

链接：https://www.aminer.cn/pub/65275731939a5f4082a450ee/?f=cs

9. MatChat: A Large Language Model and Application Service Platform for Materials Science

这篇论文介绍了一款名为 MatChat 的大型语言模型与应用服务平台，专为材料科学设计。在材料科学研究中，预测化学合成路径起着关键作用。然而，合成路径的复杂性和缺乏全面的数据集目前阻碍了我们准确预测这些化学过程的能力。论文作者利用最近在生成式人工智能（GAI）方面的进展，包括自动文本生成、问答系统和微调技术，开发了针对特定领域的规模化 AI 模型。在本文中，作者利用 LLaMA2-7B 模型的力量，并通过学习过程融合了 13,878 条结构化材料知识数据，从而增强了该模型。这个名为 MatChat 的专有 AI 模型专注于预测无机材料合成路径，并在材料科学领域表现出卓越的知识生成和推理能力。尽管 MatChat 需要进一步优化以满足多样化的材料设计需求，但这项研究无疑突显了它在材料科学领域令人印象深刻的推理能力和创新潜力。MatChat 现已上线并开放使用，模型及其应用框架均作为开源资源提供。这项研究为在材料科学中集成生成式 AI 的协同创新奠定了坚实的基础。

链接：https://www.aminer.cn/pub/65275731939a5f4082a44f5c/?f=cs

10. Large Language Models can Learn Rules

这篇论文研究了大型语言模型（LLMs）在学习规则方面的应用。在给出一些示例和中间步骤的情况下，LLMs 在各种推理任务中表现出令人印象深刻的效果。然而，当依赖 LLM 中的隐含知识时，提示方法通常会在隐含知识错误或与任务不一致的情况下产生错误的答案。为解决这个问题，作者提出了一个名为 Hypotheses-to-Theories（HtT）的框架，该框架学习一个用于与 LLMs 进行推理的规则库。HtT 包含两个阶段，即归纳阶段和演绎阶段。在归纳阶段，首先要求 LLM 在训练示例上生成并验证规则。足够频繁地出现在正确答案之前的规则被收集形成一个规则库。在演绎阶段，然后提示 LLM 使用学到的规则库进行推理以回答测试问题。实验结果表明，HtT 在数值推理和关系推理问题上均优于现有的提示方法，准确率提高了 11-27%。学到的规则也可以转移到不同模型和同一问题的不同形式上。

链接：https://www.aminer.cn/pub/65275731939a5f4082a44e95/?f=cs

如何使用AMiner AI？

使用AMiner AI的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在AMiner AI页面中，可以选择基于单篇文献进行对话和基于全库（个人文献库）对话，可选择上传本地PDF或者直接在AMiner上检索文献。