LLM论文周报｜来自清华大学、北京大学、Meta AI等机构前沿论文研究

AMiner学术搜索和科技情报挖掘

于 2023-09-05 14:42:03 发布

阅读量332

点赞数

分类专栏： AMiner论文推荐文章标签：人工智能

本文链接：https://blog.csdn.net/AI_Conf/article/details/132691765

版权

AMiner论文推荐专栏收录该内容

515 篇文章 52 订阅

订阅专栏

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文，来自Meta AI、北京大学、清华大学等机构。

1.Reinforcement Learning for Generative AI: A Survey

目前主要用于训练生成模型的范例是最大似然估计，该方法通过减小模型分布与目标分布之间的差异来捕捉和近似目标数据分布。虽然这个方法成功地建立了生成任务的目标，但它无法满足用户对生成模型的所有要求。强化学习作为一种竞争性的选择，通过创建新目标来注入新的训练信号，展示了其从多个角度利用人类的归纳偏好（例如对抗学习、手动设计的规则和学习奖励模型）来构建一个性能优秀的模型的能力和灵活性。因此，强化学习已成为一个研究热点，并在模型设计和应用方面拓展了生成人工智能的界限。文章提出了一个综合性的综述，总结了近年来在这一领域取得的进展。尽管最近在不同应用领域有一些调查报告，但本文的目的是对多个应用领域进行高层次的综述。我们在该领域提供了一个严格的分类法，并对各种模型和应用进行了充分的覆盖。值得注意的是，我们还对快速发展的大型语言模型领域进行了调查。文章最后还展示了可能解决当前模型限制并拓展生成人工智能边界的潜在方向。

链接：https://www.aminer.cn/pub/64ed716d3fda6d7f0658aa83

2. Nougat: Neural Optical Understanding for Academic Documents

文章说明了科学知识主要存储在书籍和科学期刊中，通常以PDF的形式存在。然而，PDF格式会导致语义信息的丢失，特别是对于数学表达式而言。为了解决这个问题，作者提出了一种名为Nougat的视觉Transformer模型，它可以将科学文档进行光学字符识别（OCR）处理，并转化为一种标记语言。通过在一个新的科学文档数据集上展示该模型的有效性，作者展示了这种方法为提高科学知识在数字时代的可访问性提供了一种有希望的解决方案，弥合了人类可读文档和机器可读文本之间的差距。作者发布了模型和代码，以加速未来在科学文本识别方面的工作。

链接：https://www.aminer.cn/pub/64ec1b7e3fda6d7f06270245

3. InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4

通过预训练图像-文本对和在视觉语言指令数据上进行微调的双阶段训练过程，这些模型获得了遵循指令的能力。最近的研究表明，即使使用有限数量的高质量指令跟随数据，大型语言模型也可以达到令人满意的结果。本文介绍了InstructionGPT-4，它仅在一个由200个示例组成的小数据集上进行了微调，相当于MiniGPT-4对齐数据集中使用的指令跟随数据的约6％。作者首先提出了几个评估多模态指令数据质量的指标。基于这些指标，他们提出了一个简单而有效的数据选择器，可以自动识别和过滤低质量的视觉语言数据。通过采用这种方法，InstructionGPT-4在各种评估中（例如视觉问答，GPT-4偏好）优于原始的MiniGPT-4。总体而言，研究结果表明，少量但高质量的指令微调数据能够有效地使多模态大型语言模型生成更好的输出。

链接：https://www.aminer.cn/pub/64e6d5bd3fda6d7f0652c7f8

4. Large Graph Models: A Perspective

论文指出在人工智能和机器学习领域中，大型模型已经取得了重大突破，但在图形领域中，尤其是在自然语言处理和计算机视觉等其他领域，大型模型尚未取得同样的成功。为了推动大型图形模型的应用，该论文提出了一个观点论文，讨论了开发大型图形模型所面临的挑战和机遇。首先，论文讨论了大型图形模型的理想特性。然后，从表示基础、图形数据和图形模型三个重要角度进行了详细讨论。在每个类别中，论文简要介绍了最新进展，强调了剩下的挑战以及我们的展望。最后，论文讨论了大型图形模型的有价值的应用。论文认为这个观点论文能够鼓励进一步探索大型图形模型，最终使我们离得上人工通用智能（AGI）更近一步。

链接：https://www.aminer.cn/pub/64ed716d3fda6d7f0658ab4a

5. Computation-efficient Deep Learning for Computer Vision: A Survey

在深度学习模型在计算机视觉任务中展现出巨大进展的同时，其所需的计算资源也日益增加，给现实世界中的应用带来了一些挑战。现有的先进模型通常需要大量的计算资源，在实际场景中可能导致不切实际的功耗、延迟或碳排放。为了在推断过程中最小化计算成本，计算机视觉领域开始关注计算效率高的深度学习。该文摘所提供的综述对这一快速发展领域进行了广泛的分析，涵盖了四个主要方面：1）用于高效提取有辨别力的深度表征的静态或动态轻量级骨干模型的发展；2）针对特定计算机视觉任务而设计的专门网络结构或算法；3）用于压缩深度学习模型的技术；以及4）在硬件平台上部署高效深度网络的策略。此外，该文摘还对该领域面临的关键挑战进行了系统讨论，如网络架构设计、训练方案、实际效率和更现实的模型压缩方法，以及可能的未来研究方向。

链接：https://www.aminer.cn/pub/64ed716d3fda6d7f0658a92f

6. LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

这篇论文是关于基于大型语言模型的自主智能体的研究概述。之前的研究往往集中在有限知识下在孤立环境中训练智能体，这与人类的学习过程相去甚远，因此使得智能体难以实现类人的决策。近年来，通过获取大量的网络知识，大型语言模型 (LLMs) 在实现人类水平智能方面表现出了巨大的潜力。这引发了基于 LLM 的自主智能体研究的激增。为了充分利用 LLM 的潜力，研究人员为不同应用设计了各种智能体架构。在这篇论文中，我们从整体上对这些研究进行了系统回顾，具体来说，我们的重点在于构建基于 LLM 的智能体，为此我们提出了一个统一的框架，涵盖了大部分以前的工作。此外，我们还提供了 LLM 为基础的人工智能智能体在社会科学、自然科学和工程领域各种应用的概述。最后，我们讨论了用于评估 LLM 为基础的人工智能智能体的常用策略。根据以前的研究，我们还提出了这个领域的几个挑战和未来方向。

链接：https://www.aminer.cn/pub/64f00ff53fda6d7f06eced18

7.LLaSM: Large Language and Speech Model

当前大部分的研究关注于视觉-语言多模态模型，在理解和执行视觉-语言指令方面具有强大的能力。然而，作者声称语音也是人类与世界互动的重要方式，因此通用助手能够理解和遵循多模态语音-语言指令至关重要。为此，作者提出了一种大型语言和语音模型(LLaSM)。LLaSM是一个端到端训练的大型多模态语音-语言模型，具有跨模态会话能力，能够遵循语音和语言指令。早期实验表明，LLaSM展示了人类与人工智能更方便和更自然的交互方式。此外，作者还发布了一个大型的语音指令数据集LLaSM-Audio-Instructions。

链接：https://www.aminer.cn/pub/64f00ff43fda6d7f06ecec49

8.Dual-Stream Diffusion Net for Text-to-Video Generation

在文本到视频生成领域存在一个重要的瓶颈，即生成的视频常常带有一些闪烁和瑕疵。作者提出了一种双流扩散网络（DSDN），以提高生成视频中内容变化的一致性。该方法通过设计两个扩散流，视频内容和动态分支，在私有空间中分别运行，以产生个性化的视频变化和内容，并通过利用作者设计的跨转换器交互模块在内容和动态领域之间进行良好的对齐，从而有利于生成视频的平滑性。此外，作者还引入了运动分解器和合并器来便于对视频运动进行操作。定性和定量实验表明，该方法能够生成具有较少闪烁的令人惊叹的连续视频。因此，摘要说明了生成视频中闪烁和瑕疵的问题，并提出了双流扩散网络的解决方案。

链接：https://www.aminer.cn/pub/64dd9b053fda6d7f0622e793

9. Teach LLMs to Personalize – An Approach inspired by Writing Education

论文提出了一个新的方法来解决个性化文本生成的问题。目前，该领域的研究主要集中在通过设计定制的特征或模型来解决特定领域的个性化文本生成问题。然而，本文提出的方法是基于写作教育的实践，通过开发一个多阶段和多任务的框架来教授大型语言模型（LLMs）进行个性化生成。这个框架将个性化文本生成任务分解为检索、排名、摘要、综合和生成等多个阶段。同时，该方法还引入了多任务设置，以进一步提高模型的生成能力，这是基于教育观察到学生的阅读能力和写作能力通常是相关的。通过在三个公共数据集上进行评估，结果表明与各种基线方法相比，该方法在个性化文本生成方面取得了显著的改进。

链接：https://www.aminer.cn/pub/64dd9b053fda6d7f0622e61f

10. OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

最近的后训练量化（PTQ）方法可以减少内存占用并提高LLM的计算效率，但它们手工设计量化参数，导致性能较低，并且无法处理极低比特的量化。为了解决这个问题，作者引入了一种名为Omnidirectionally calibrated Quantization（OmniQuant）的技术，通过有效地优化各种量化参数，在不同的量化设置下实现良好的性能，同时保持PTQ的计算效率。

链接：https://www.aminer.cn/pub/64ec1b763fda6d7f0626f449