大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
本周精选了10篇LLM领域的优秀论文,来自谷歌、Meta AI、香港中文大学等机构。
为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
1.Link-Context Learning for Multimodal LLMs
这篇论文主要研究了多模态语言模型(MLLMs)在从上下文中学习新概念和生成合适回应方面的能力。尽管当前的 MLLMs 和 LLMs 已经在大规模数据集上训练,但它们在以训练免费的方式识别未见过的图像或理解新概念方面仍然面临挑战。文中提出了一种链接情境学习(LCL)的方法,强调通过因果关系来增强 MLLMs 的学习能力。LCL 通过提供具有因果关系的示范,指导模型不仅仅辨别数据点之间的类比关系,而且还能理解其潜在的因果关联,从而更有效地识别未见过的图像和理解新概念。为了评估这种新方法,作者引入了 ISEKAI 数据集,该数据集专门为链接情境学习而设计的未见过的图像-- 标签对。实验结果表明,与普通的 MLLMs 相比,使用 LCL 的 MLLMs 在处理新概念时具有更强的链接情境学习能力。
链接:https://www.aminer.cn/pub/64dc49933fda6d7f06389f5c/
2.Self-Alignment with Instruction Backtranslation
这篇论文介绍了一种名为"指令反向翻译"的可扩展方法,用于构建高质量的指令跟随语言模型。该方法通过自动为人类编写的文本分配相应的指令,从而实现自我对齐。首先,在一个小量的种子数据和给定的网络文集中对语言模型进行微调。然后,使用种子模型生成指令提示,用于网络文档的自我扩充,并从这些候选者中选择高质量的例子进行自我策展。最后,利用这些数据对模型进行再次微调,从而得到一个更强大的模型。经过两次迭代,该方法在 Alpaca 排行榜上超越了所有不依赖于蒸馏数据的 LLaMa 基础模型,证明了自我对齐的效果非常高效。
链接:https://www.aminer.cn/pub/64d9a6873fda6d7f061d37b9/
3.A Survey on Model Compression for Large Language Models
这篇论文是关于大型语言模型(LLMs)压缩的调查。LLMs 在自然语言处理任务中取得了显著的成功,但由于其庞大的大小和计算需求,在实际部署中,尤其是在资源受限的环境中,面临着巨大的挑战。随着这些挑战日益突出,模型压缩领域应运而生,成为缓解这些限制的关键研究领域。本文对专门针对 LLM 的模型压缩技术进行了全面的调查,深入探讨了包括量化、剪枝、知识蒸馏等在内的各种方法。在这些技术中,我们突出了最近的进展和创新方法,这些方法为 LLM 研究的发展做出了贡献。此外,我们还探讨了评估压缩 LLMs 有效性的基准测试策略和评估指标。通过提供对最新发展趋势和实际意义的见解,本调查成为研究人员和实践者非常有价值的资源。随着 LLMs 的不断发展,本调查旨在促进其效率和实际应用性的提高,为该领域的未来发展奠定基础。
链接:https://www.aminer.cn/pub/64dc49903fda6d7f06389c5f/
4.Large Language Models for Information Retrieval: A Survey
这篇论文的摘要是关于使用大型语言模型进行信息检索的。信息检索系统已经成为我们日常生活中的主要信息获取方式,并且还作为对话、问答和推荐系统的组成部分。信息检索的发展轨迹从基于术语的方法开始,已经发展到与先进的神经模型相结合。尽管神经模型在捕捉复杂的上下文信号和语义细微差别方面表现出色,但它们仍然面临着数据稀缺性、可解释性和生成可能不准确的上下文合理响应等挑战。这种发展需要将传统方法(如基于术语的稀疏检索方法)与现代神经架构(如具有强大语言理解能力的语言模型)相结合。大型语言模型(如 ChatGPT 和 GPT-4)的出现,由于它们出色的语言理解、生成、泛化和推理能力,彻底改变了自然语言处理领域。因此,最近的研究试图利用大型语言模型来改进信息检索系统。鉴于这个研究轨迹的快速发展,有必要总结现有的方法,并通过全面的概述提供深入的见解。在这篇调查中,我们深入探讨了大型语言模型和信息检索系统的融合,包括诸如查询重写器、检索器、排序器和阅读器等关键方面。此外,我们还探讨了这个不断扩展领域的有前景的方向。
链接:https://www.aminer.cn/pub/64dafb293fda6d7f064e2d9e/
5.ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
这篇论文主要探讨了如何通过多智能体辩论来提高基于大型语言模型(LLM)的评估方法的效果。尽管使用 LLM 进行评估的方法显示出一定的前景,但实验结果表明,还需要进一步的改进才能使人类评估的质量与当前效果之间的差距。作者认为,人类评估的最佳实践往往涉及多个人类注释器在评估过程中的合作。因此,他们采用了一种多智能体辩论框架,超越了单智能体提示策略。这种基于多智能体的方法使一组 LLM 能够与各种智能对手协同工作,利用它们各自的能力和专业知识来提高处理复杂任务的效率和有效性。在这篇论文中,作者构建了一个名为 ChatEval 的多智能体裁判团队,用于自主讨论和评估不同模型在开放式问题和传统自然语言生成(NLG)任务上生成的响应的质量。作者的分析表明,ChatEval 不仅超越了单纯的文本评分,而且提供了一种类似于人类的评估过程,以确保可靠的评估结果。
链接:https://www.aminer.cn/pub/64dafb293fda6d7f064e2e02/
6.Foundation Model is Efficient Multimodal Multitask Model Selector
这篇论文研究了一个重要但未被充分探索的问题:给定一组预训练的神经网络,如何预测它们在每个多模态任务上的性能,而无需对它们进行微调,例如图像识别、指代、字幕生成、视觉问题回答和文本问题回答。一种拙劣的方法是对所有模型在所有目标数据集上进行微调,这将带来高计算成本。尽管最近的先进方法采用了轻量级的指标来测量模型的可转移性,但它们通常严重依赖于单个任务的先验知识,这使得它们在多模态多任务场景下无法应用。为了解决这个问题,我们提出了一种高效的多任务模型选择器(EMMS),它利用大规模的基础模型将不同下游任务的不同标签格式(如类别、文本和边界框)转换为一种统一的噪声标签嵌入。EMMS 可以通过简单的加权线性回归来估计模型的可转移性,这可以通过交替最小化算法有效地解决,并具有收敛保证。在大量实验中,EMMS 在 5 个下游任务和 24 个数据集上表现出快速、有效和通用的特点,足以评估预训练模型的可转移性,使其成为多任务场景中的第一个模型选择方法。例如,与增强型 LogME 相比,EMMS 在图像识别、指代、字幕生成、视觉问题回答和文本问题回答方面的性能分别提高了 9.0%、26.3%、20.1%、54.8% 和 12.2%,同时分别带来了 5.13 倍、6.29 倍、3.59 倍、6.19 倍和 5.66 倍的时钟速度提升。
链接:https://www.aminer.cn/pub/64d9a6873fda6d7f061d37bc/
7.Detecting and Preventing Hallucinations in Large Vision Language Models
这篇论文主要研究了大型视觉语言模型(LVLM)在生成详细回答时存在的幻觉问题。尽管指令调整的 LVLM 在视觉问题解答(VQA)等任务中取得了显著进展,但仍难以生成视觉上合理的详细回答。作者发现,即使是当前最先进的 LVLM(InstructBLIP)中,仍然有 30% 的文本是幻觉形式的,包括不存在的对象、不真实的描述和错误的关系。为了解决这个问题,作者提出了 M-HalDetect,一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。M-HalDetect 包含 16k 个关于 VQA 示例的细粒度标签,成为第一个用于详细图像描述的多模态幻觉检测数据集。与以前的工作只考虑对象幻觉不同,作者还额外注释了不真实的实体描述和关系。为了展示这个数据集在偏好对齐方面的潜力,作者提出了细粒度直接偏好优化,并训练了细粒度多模态奖励模型,使用最佳 n 次拒绝采样进行评估。作者对人类评估的 DPO 和拒绝采样进行了研究,发现它们分别将幻觉率降低了 41% 和 55%,比基线有了显著的改善。
链接:https://www.aminer.cn/pub/64dafb293fda6d7f064e2acb/
8.Platypus: Quick, Cheap, and Powerful Refinement of LLMs
我们介绍了一种精细调整和大型语言模型(LLMs)的合并方法,它在 HuggingFace 的公开 LLM 排行榜上取得了最强性能,并位居发布日期时的首位。在本文中,我们描述了(1)我们精心挑选的数据集 Open-Platypus \textbf{Open-Platypus} Open-Platypus,它是其他公开数据集的子集,并且我们向公众发布(2)我们精细调整和合并 LoRA 模块的过程,以保留预训练 LLM 的强烈先验,同时将特定领域知识表现出来(3)我们努力检查测试数据泄漏和训练数据污染,这可以告知未来的研究。特别是,Platypus 家族在各种模型尺寸的定量 LLM 指标上表现出强大的性能,在仅使用其他最先进的精细调整 LLM 所需的一小部分微调数据和总计算能力的情况下,成为全球公开 LLM 排行榜的榜首。具体来说,一个 13B 的 Platypus 模型可以在单个 A100 GPU 上使用 25k 问题在 5 小时内训练。这是对我们 Open-Platypus 数据集质量的证明,并为该领域的更多改进提供了机会。
链接:https://www.aminer.cn/pub/64dafb2f3fda6d7f064e349c/
9.OctoPack: Instruction Tuning Code Large Language Models
这篇论文介绍了一种名为 OctoPack 的方法,用于通过代码对大型语言模型进行指令调整。通过在指令上微调大型语言模型(LLMs),可以在自然语言任务上实现巨大的性能提升。该方法利用 Git 提交的自然结构,将代码更改与人类指令配对。OctoPack 编译了来自 350 种编程语言的 4 TB Git 提交。在 16B 参数 StarCoder 模型上,将 CommitPack 与其他自然和合成代码指令(xP3x、Self-Instruct、OASST)进行基准测试,在未训练 OpenAI 输出的模型中实现了最先进的性能,在 HumanEval Python 基准测试中取得了 46.2% 的 pass@1。此外,作者还引入了 HumanEvalPack,将 HumanEval 基准扩展到 6 种语言(Python、JavaScript、Java、Go、C++、Rust)和 3 个编码任务(代码修复、代码解释、代码合成)。OctoCoder 和 OctoGeeX 是在 HumanEvalPack 中表现最好的模型,这表明 CommitPack 在推广到更广泛的语言和自然编码任务方面具有优势。
链接:https://www.aminer.cn/pub/64dafb293fda6d7f064e2db0/
10.Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification
这篇论文主要研究了如何利用 GPT-4 Code Interpreter 解决复杂的数学问题。GPT-4 Code Interpreter 是 OpenAI 开发的最新版本的 GPT-4,它在解决数学问题上表现出色。作者发现 GPT-4 Code Interpreter 成功的原因在于它生成和执行代码、评估代码执行结果以及在收到不合理输出时修正解决方案的能力。基于这个洞察,作者提出了一种新的提示方法——基于代码的自我验证(CSV),以进一步提高 GPT-4 Code Interpreter 的数学推理潜力。CSV 方法通过零散提示鼓励 GPT-4 Code Interpreter 使用代码来自我验证答案。如果验证结果为“False”,模型将自动修正其解决方案。此外,作者还发现验证结果的状态可以提高多数投票的有效性。在使用 GPT-4 Code Interpreter 和 CSV 方法后,MATH 数据集的零散准确率从 53.9% 提高到了 84.3%。
链接:https://www.aminer.cn/pub/64dc49933fda6d7f06389f7b/
如何使用ChatPaper?
作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。
ChatPaper是一款集检索、阅读、知识问答于一体的对话式私有知识库,AMiner希望通过技术的力量,让大家更加高效地获取知识。
ChatPaper使用教程:点此查看