传神论文中心｜本周人工智能领域论文推荐

最新推荐文章于 2024-09-27 16:14:00 发布

OpenCSG

最新推荐文章于 2024-09-27 16:14:00 发布

阅读量597

点赞数 11

文章标签：人工智能

本文链接：https://blog.csdn.net/OpenCSG/article/details/137919650

版权

在人工智能领域的快速发展中，不断看到令人振奋的技术进步和创新。近期，开放传神（OpenCSG）传神社区发现了一些值得关注的成就，在当今数字化时代，人工智能（AI）已经成为了许多领域的核心驱动力。其中，深度学习作为AI的重要支柱之一，通过神经网络的层次化结构和大量数据的训练，使得计算机系统能够学习并模仿人类智能的某些方面。传神社区本周也为AI和大模型感兴趣的读者们提供了值得一读的研究工作的简要概述和它们各自的论文推荐链接。

01 Leave No Context Behind

传神社区注意到这篇文章中有以下亮点:Infini-attention技术的关键特点和优势。这项技术通过将压缩记忆模块整合到标准的点积注意力机制中，目的是让基于Transformer的语言模型能够有效地处理无限长的输入序列，同时保持内存占用和计算资源的有限性。Infini-attention提出了一种新的注意力技术，它在单个Transformer模块中同时构建了掩蔽的局部注意力和长期的线性注意力机制。这样，Infini-Transformer模型就能够高效地处理长期和短期的上下文依赖关系，并且在长上下文语言建模任务中以114倍的内存压缩比超越了基线模型。

论文推荐链接：

https://opencsg.com/daily_papers/kyaQZS4T2LDb

02 OpenEQA

传神社区注意到这篇文章中有以下亮点：该论文提出一个开放词汇量的基准数据集，该数据集旨在衡量人工智能模型执行具身问题回答（Embodied Question Answering, EQA）的能力。这个数据集包含了1600个由人类生成的问题，这些问题是基于180个真实世界环境构建的。此外，该数据集还提供了一个由大型语言模型（LLM）支持的评估协议，用于执行EQA任务，并展示了像GPT-4V这样的模型在性能上显著落后于人类水平。这个基准数据集的提出具有重要意义，因为它为研究人员和开发者提供了一个平台，用以评估和改进AI模型在理解和回答与现实世界环境相关的问题方面的能力。具身问题回答是一个相对较新的研究领域，它要求AI模型不仅要理解自然语言，还要能够解释和利用关于物理世界的知识，包括空间关系、对象属性和动态交互等。通过提供这样一个大规模的、多样化的问题集合，研究人员可以更好地理解AI模型在处理这类问题时的强项和弱点。

论文推荐链接：

https://opencsg.com/daily_papers/rg1LKL6c5JJ9

03 CodeGemma

传神社区注意到这篇文章中有以下亮点：这是关于基于Gemma的开源代码LLM的描述：CodeGemma 7B模型在数学推理方面表现出色，并且在匹配其他开源模型的代码能力方面表现优异；经过指导优化的CodeGemma 7B模型是Python编程中更强大的模型，经过HumanEval基准测试评估；结果还表明，该模型在GSM8K上表现最佳；CodeGemma 2B模型实现了SoTA代码完成，并且专为在延迟敏感环境中进行快速代码填充和部署而设计。

论文推荐链接：

https://opencsg.com/daily_papers/UtrZ4nxi9B2m

04 LM-Guided Chain-of-Thought

传神社区注意到这篇文章中有以下亮点：该论文描述了一种知识蒸馏技术，将大型语言模型生成的理由用于小型语言模型，希望缩小推理能力上的差距；轻量级语言模型生成理由，然后由冻结的大型语言模型进行答案预测；这种资源高效的方法避免了对大型模型进行微调，而是将理由生成交给了小型语言模型；通过强化学习进一步优化了经过知识蒸馏的语言模型，使用多个基于理由和任务导向的奖励信号；本文提出的基于LM的CoT提示方法在性能上优于标准提示和CoT提示。自一致性解码也提高了性能。

论文推荐链接：

https://opencsg.com/daily_papers/d95K7fFpvgcH

05 Best Practices and Lessons on Synthetic Data

传神社区注意到这篇文章中有以下亮点：Google DeepMind对合成数据研究进行了概述，涵盖了应用、挑战和未来方向；讨论了在使用合成数据时需要考虑的重要主题，如确保质量、事实性、保真度、无偏性、可信度、隐私等等。

论文推荐链接：

https://opencsg.com/daily_papers/6WDUsjW3Xnm3

06 Reasoning with Intermediate Revision and Search

传神社区注意到这篇文章中有以下亮点：该论文提出了一种通用推理和搜索的方法，适用于可分解成组件的任务；所提出的基于图的框架THOUGHTSCULPT融合了迭代式自我修订能力，允许LLM构建一个交织的思维网络；与其他方法（如Tree-of-thoughts）通过树来塑造推理过程不同，这种新方法结合了蒙特卡洛树搜索（MCTS）以高效地导航搜索空间；由于其连续思考迭代的能力，THOUGHTSCULPT特别适用于开放式生成、多步推理和创意构思等任务。

论文推荐链接：

https://opencsg.com/daily_papers/mZJotrdbHgfA

07 Overview of Multilingual LLMs

传神社区注意到这篇文章中有以下亮点：该论文是一项关于多语言大型语言模型（LLMs）的调查研究，这项研究可能包括以下几个方面：方法回顾（Methods Review）：这部分将详细回顾和分析用于构建多语言LLMs的各种方法和技术。这可能包括但不限于多任务学习、迁移学习、跨语言预训练、语言适应性、以及如何利用和整合不同语言的数据和知识。

论文推荐链接：

https://opencsg.com/daily_papers/KoWYmdByMbsJ

08 The Physics of Language Models

传神社区注意到这篇文章中有以下亮点：这份调查研究了知识容量缩放定律，通过损失或基准测试来评估模型的能力，以估计模型存储的知识位数；报告指出：“语言模型只能存储每个参数2个知识位，即使将其量化为int8，这种知识也可以灵活地用于下游应用。因此，根据我们的估算，一个7B模型可以存储140亿位的知识，超过了英文维基百科和教科书的总和。”

论文推荐链接：

https://opencsg.com/daily_papers/Z8BrGZ4aWbJ1

09 Aligning LLMs to Quote from Pre-Training Data

传神社区注意到这篇文章中有以下亮点：该论文提出了一些技术来对齐LLM，以利用直接从预训练数据中记忆的信息引用；这种对齐方法不仅能够生成高质量的引用原文陈述，而且总体上保持响应质量；它利用了一个合成的偏好数据集来进行引用，而不需要任何人类注释，并通过偏好优化来对齐目标模型进行引用。

论文推荐链接：

https://opencsg.com/daily_papers/nAxCWiHwwkWg

10 The Influence Between NLP and Other Fields

传神社区注意到这篇文章中有以下亮点：自然语言处理（NLP）有望对世界产生重大影响。然而，显著的进展伴随着相当大的风险。解决这些问题需要与各个研究领域广泛合作。然而，很少有实证工作考察了这种合作状态（过去或现在）。在本文中，我们量化了23个研究领域与NLP之间相互影响的程度。我们分析了约77,000篇NLP论文，以及这些论文对其他论文的约3.1百万次引用，以及其他论文对NLP论文的约1.8百万次引用。我们展示了，与大多数领域不同，我们提出的引用领域多样性指数（CFDI）衡量的NLP跨领域合作，从1980年的0.58下降到2022年的0.31（历史最低水平）。此外，我们发现NLP变得更加封闭—引用越来越多的NLP论文，少有论文作为各个领域之间的桥梁。NLP引用以计算机科学为主；少于8%的NLP引用是对语言学的，少于3%是对数学和心理学的。这些发现强调了NLP迫切需要反思与各个领域的合作关系。

论文推荐链接：

https://opencsg.com/daily_papers/2PMDaiBQ9WB8