大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain?f=cs
1.VITA: Towards Open-Source Interactive Omni Multimodal LLM
本文介绍了VITA,这是首个开源的Multimodal Large Language Model(MLLM),能够同时处理和分析视频、图像、文本和音频等多模态数据,并具有先进的跨模态交互体验。以Mixtral 8x7B为基础,扩展了其中文词汇,并通过双语指令微调。通过两阶段的多任务学习,使语言模型具备视觉和音频能力,并进行了模态对齐和指令微调。VITA在单模态和多模态基准测试中表现出色,展示了其在多语言、视觉和音频理解方面的强大基础能力。除了基础能力外,我们还取得了很大进展,增强了自然的多模态人机交互体验,首次在MLLM中探索了非唤醒式交互和音频中断。VITA是开源社区迈向无缝整合多模态理解和交互的第一步。虽然VITA还有许多工作要做,以接近闭源模型,但我们希望它作为先驱的角色能为后续研究奠定基石。项目页面:https://vita-home.github.io。
链接:https://www.aminer.cn/pub/66b96bba01d2a3fbfcb65825/?f=cs
2.ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities
这篇论文介绍了一个名为ToolSandbox的新工具,用于评估大型语言模型(LLM)使用工具的能力。近年来,随着大型语言模型的进步,人们越来越关注使用工具辅助LLM解决现实世界问题,这就需要对工具使用能力进行全面评估。与之前的研究不同,ToolSandbox包含了有状态的工具执行、工具之间的隐式状态依赖、内置的用户模拟器支持基于策略的对话评估以及针对任意轨迹的中间和最终里程碑的动态评估策略。研究结果表明,开源和商业模型之间存在显著的性能差距,而ToolSandbox中定义的复杂任务,如状态依赖、标准化和信息不足等问题,即使是目前最先进的LLM也面临挑战,从而为工具使用LLM的能力提供了全新的见解。ToolSandbox评估框架已发布在https://github.com/apple/ToolSandbox。
链接:https://www.aminer.cn/pub/66b96bb301d2a3fbfcb64760/?f=cs
3.Affective Computing in the Era of Large Language Models: A Survey from the NLP Perspective
这篇论文从自然语言处理的角度,对大型语言模型时代的情感计算进行了一次调查。情感计算结合了计算机科学、心理学和认知科学的知识,旨在使机器能够识别、解释和模拟人类情感。为了创造更多价值,情感计算可以应用于包括社交媒体、金融、医疗保健、教育等在内的多种场景。情感计算包括两个主要任务:情感理解(AU)和情感生成(AG)。为AU任务微调预训练语言模型(PLMs)已取得显著成功。然而,这些模型缺乏泛化能力,需要为特定任务开发专门的模型。此外,传统的PLMs在AG方面面临挑战,特别是在生成多样化和情感丰富的回应方面。大型语言模型(LLMs)的出现,如ChatGPT系列和LLaMA模型,为情感计算带来了新的机遇和挑战,催生了AC领域的范式转变。LLMs具备上下文学习、常识推理和高级序列生成的能力,为AU带来了前所未有的机遇。为了全面了解LLMs时代情感计算的研究发展,我们从NLP的角度总结了LLMs研究进展,旨在提供新的见解。具体来说,我们首先总结了与情感计算相关的传统任务,并介绍了基于LLMs的初步研究。接着,我们概述了改进AC任务的流行LLMs相关技术,包括指令微调和提示工程。对于指令微调,我们讨论了全参数微调和参数高效方法,如LoRA、P-Tuning和提示微调。在提示工程方面,我们研究了零样本、少样本、思维链(CoT)和基于代理的方法。为了清楚地了解LLMs在不同的情感计算任务上的表现,我们进一步总结了现有的基准和评估方法。
链接:https://www.aminer.cn/pub/66b96bb301d2a3fbfcb64730/?f=cs
4.Natural Language Outlines for Code: Literate Programming in the LLM Era
本文提出了一种新颖的方法,使用自然语言大纲作为在软件开发过程中为开发者提供AI辅助的交互界面。我们利用简洁的散文编写多个声明,对代码函数进行分割,并以其为主体的文学编程风格来总结主要思想。研究发现,现代大型语言模型(LLM)可以生成准确且高质量的 natural language outlines。此外,自然语言大纲实现了代码和自然语言之间的双向同步,使得两者之间的修改可以自动相互反映。讨论了许多自然语言大纲的使用场景:它们可以加速理解和导航代码及差异,简化代码维护,增强代码搜索,指导代码生成等。我们提出了多种 LLM 提示技巧来生成大纲,并邀请专业开发者评判大纲质量。最后,我们通过两个案例研究,将自然语言大纲应用于代码审查和困难的恶意软件检测任务。
链接:https://www.aminer.cn/pub/66b96bb301d2a3fbfcb647fa/?f=cs
5.Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
这篇论文介绍了一种名为Gemma Scope的工具,这是一个开放的跳跃ReLU稀疏自编码器(SAEs)套件,它在一个整体上对Gemma 2的2B、9B和部分27B基础模型进行了训练。该研究主要在Gemma 2预训练模型上训练SAEs,同时也发布了在指令调整的Gemma 2 9B上训练的SAEs以供比较。研究通过标准指标评估了每个SAE的质量,并公布了这些结果。通过公开这些SAE的权重,研究者希望有助于让社区的研究者更容易地进行更复杂的安全性和可解释性研究。公开的权重和教程可以在https://huggingface.co/google/gemma-scope找到,还有一个互动式演示可以在https://www.neuronpedia.org/gemma-scope上找到。
链接:https://www.aminer.cn/pub/66b96bba01d2a3fbfcb657e1/?f=cs
AMiner AI入口:
https://www.aminer.cn/chat/g/explain?f=cs