实时追踪科研动态丨7.31精选新论文，附ChatPaper综述

AMiner学术搜索和科技情报挖掘

于 2023-07-31 23:18:54 发布

阅读量219

点赞数

文章标签：人工智能科研学术论文 ChatPaper

本文链接：https://blog.csdn.net/AI_Conf/article/details/132032534

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/

2023年7月31日精选新论文列表：

1.NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

https://www.aminer.cn/pub/64c33db93fda6d7f06957762/

论文主要解决了现有室内三维检测方法在建模场景几何结构方面存在困难的问题。通过将NeRF方法应用于端到端的室内三维检测中，该方法能够显式地估计三维几何结构，从而提高了三维检测性能。为了避免对NeRF进行每个场景的优化所带来的额外延迟，论文引入了足够的几何先验知识来增强NeRF-MLP的泛化能力。而且，通过共享MLP来将检测和NeRF两个分支进行巧妙的连接，使得NeRF能够高效地适应检测，并产生具有几何感知能力的体积表示用于三维检测。该方法在ScanNet和ARKITScenes基准测试上相对于现有方法分别提升了3.9 mAP和3.1 mAP。论文还对NeRF-Det的工作原理进行了详细分析。由于联合训练的设计，NeRF-Det能够很好地泛化到未见场景的目标检测、视图合成和深度估计任务中，而无需进行每个场景的优化。

2.PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback

https://www.aminer.cn/pub/64c33dc33fda6d7f069586db/

论文主要解决的问题是如何提升预训练的大型语言模型在代码生成方面的性能。论文介绍了一种新的框架RRTF，通过这种框架可以有效地提升预训练的大型语言模型在代码生成方面的效果。研究者提出了一种名为PanGu-Coder2的模型，在多个基准测试中展现了优异的性能，超越了之前的Code LLMs。

3.Scaling TransNormer to 175 Billion Parameters

https://www.aminer.cn/pub/64c33dc33fda6d7f0695871d/

论文介绍了一个名为TransNormerLLM的大型语言模型(Large Language Model)，该模型使用线性注意力机制，通过一系列先进的修改，包括位置嵌入、线性注意力加速、门控机制、张量归一化、推断加速和稳定化等，胜过了传统的基于softmax注意力的模型，既提高了准确性又提升了效率。该模型具备良好的可扩展性，可以在大规模集群上无缝部署，并便于扩展到更大规模的模型，并保持出色的性能指标。通过对自己收集的包含超过6TB数据和超过2万亿个标记的语料库进行一系列严格的实验证明了模型设计的有效性。他们还实施了一种新的自清洗策略来保证数据的质量和相关性，并将他们预训练的模型发布给社区以促进高效LLM的发展。

4.To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

https://www.aminer.cn/pub/64c33dc33fda6d7f06958773/

论文说明了在语义分割领域中进行实时领域适应的问题。在实际应用中，可能会出现未预料到的领域变化，如突发天气事件。然而，采用暴力适应的高计算成本使得这种范式在实际应用中不可行。为了解决这个问题，论文提出了一种名为HAMLET的硬件感知模块化最低成本训练框架，可以实现实时领域适应。该方法包括硬件感知的反向传播编排代理（HAMT）和专用的领域漂移检测器，能够在何时以及如何适应模型进行主动控制（LT）。通过这些改进，该方法能够在单个普通消费级GPU上以超过29FPS的速度执行语义分割同时进行适应。该框架在OnDA和SHIFT的基准测试中通过实验结果展示了令人鼓舞的准确性和速度权衡。

5.Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

https://www.aminer.cn/pub/64c33db93fda6d7f06957707/

文章介绍了一个机器人技能获取的框架，该框架可以高效地扩大语言标记的机器人数据生成，并将这些数据有效地提炼成一个稳健的多任务语言条件下的视觉-运动策略。对于问题(1)，作者使用一个大型语言模型（LLM）来引导高层规划，并使用基于采样的机器人规划器（如运动或抓取采样器）生成多样化和丰富的操作轨迹。为了提高数据收集的稳健性，LLM还推断出每个任务的成功条件的代码片段，同时使数据收集过程能够检测失败并重试，以及自动将轨迹标记为成功/失败。对于问题(2)，作者将扩散策略单任务行为克隆方法扩展到具有语言条件的多任务设置。最后，作者提出了一个包含五个领域的18个任务的新的多任务基准，用于测试长期行为、常识推理、工具使用和直觉物理学。作者发现，他们提炼的策略成功学习了其数据收集策略中的稳健重试行为，并且在五个领域中，平均绝对成功率提高了34.8%。

6.Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

https://www.aminer.cn/pub/64c731d03fda6d7f06824439/

指出了大型语言模型（LLMs）的生成延迟较高的一个主要原因是几乎所有最先进的LLMs都采用了顺序解码方法。为了解决这个问题，这项工作提出了“思维骨架”（SoT）的概念，它指导LLMs首先生成答案的骨架，然后并行进行API调用或批量解码来同时完成每个骨架点的内容。SoT不仅提供了显著的加速（在11个不同的LLMs中高达2.39倍），还有可能在答案的多样性和相关性方面提高几个问题类别的答案质量。SoT是对效率进行数据中心优化的一种初步尝试，并揭示了推动LLMs更像人类思考以提高答案质量的潜力。

7.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

https://www.aminer.cn/pub/64c7632d47023912398be1f5/

研究解决了如何将在互联网规模数据上训练的视觉-语言模型直接应用于端到端的机器人控制，以提升泛化能力并实现新兴的语义推理的问题。研究的目标是让一个单一端到端训练的模型学习将机器人的观测映射到动作，并享受来自网络上的语言和视觉-语言数据的大规模预训练带来的益处。为此，研究提出在机器人的轨迹数据和互联网规模的视觉-语言任务（如视觉问答）上同时对最先进的视觉-语言模型进行共同微调的方法。与其他方法不同的是，研究提出了一个简单通用的方法来实现这个目标：为了将自然语言回答和机器人动作配合到同一格式中，研究将动作表达为文本标记，并直接将其纳入模型的训练集中，与自然语言标记相同。作者使用RT-2模型作为示例来展示这种类型的模型，他们将其称为视觉-语言-动作模型（VLA）。通过详尽的评估（6,000次评估试验），研究显示这种方法导致了有效的机器人策略，并使RT-2能够从互联网规模的训练中获得各种新兴能力。这包括对新对象的显著改进的泛化能力，对机器人训练数据中不存在的命令的解释能力（如将物体放在特定的数字或图标上），以及响应用户命令时进行简单推理的能力（如拾取最小或最大的物体，或靠近另一个物体的物体）。研究进一步展示，引入思维链推理使得RT-2能够进行多阶段的语义推理，例如找出用作 improvisation 锤子（比如石头）的物体，或者找到适合疲劳的人的饮料类型（比如能量饮料）

8.PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

https://www.aminer.cn/pub/64c731d03fda6d7f0682439d/

论文提出了一种无需使用任何图像，仅通过使用Prompt来合成不同风格，以应对源领域通用化的方法。他们的方法通过学习可学习的样式词向量在伪语言S*中生成多种风格特征，以确保学习到的样式不会扭曲内容信息。然后，他们使用合成的样式-内容特征训练一个线性分类器。该方法在PACS、VLCS、OfficeHome和DomainNet等数据集上取得了最先进的结果，而且只需要使用单个GPU进行训练，约30分钟即可完成。

9.Exploring Format Consistency for Instruction Tuning

https://www.aminer.cn/pub/64c731d63fda6d7f06824adb/

论文探讨了指令调优中的格式不一致问题，并研究了这种格式不一致如何影响指令调优的性能。作者提出了一个名为“统一指令调优”（UIT）的框架，利用OpenAI的API实现不同指令调优数据集之间的自动格式转换。研究结果表明，UIT能够成功提高对未见指令的泛化性能，突显了格式一致性对指令调优的重要性。为了使UIT框架更实用，作者进一步提出了一种基于困惑度的去噪方法，以减少自动格式转换的噪声。他们还训练了一个较小的离线模型，其具有与OpenAI API相当的格式转换能力，以降低实践中的成本。综上所述，该论文主要解决了指令调优中的格式不一致问题。

10.Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

https://www.aminer.cn/pub/64c731d03fda6d7f068243b0/

论文说明了强化学习从人类反馈中存在的问题和基本限制。尽管这种技术在训练人工智能系统以符合人类目标方面被广泛应用，特别是在改进最先进的大型语言模型上，但对其缺陷的系统化工作相对较少。该论文进行了以下方面的工作：(1)对强化学习从人类反馈中存在的问题和基本限制进行了调查；(2)概述了实践中理解、改进和补充强化学习从人类反馈的技术；(3)提出了审核和披露标准，以提高对强化学习从人类反馈系统的社会监督。该论文强调了强化学习从人类反馈中的限制，并强调了以多方面的方法发展更安全的人工智能系统的重要性。

11.Med-Flamingo: a Multimodal Medical Few-shot Learner

https://www.aminer.cn/pub/64c731d03fda6d7f06824392/

指出在医学应用中，现有的视觉语言生成模型通常需要在大规模的数据集上进行微调，这在很多医学应用中是一个显著的限制，因为数据稀缺，需要模型能够从少量示例中进行实时学习。为了解决这个问题，作者提出了一种适应医学领域的多模态少样本学习器Med-Flamingo。通过在医学出版物和教科书的配对和交错的医学图像和文本数据上进行进一步的预训练，Med-Flamingo可以实现少样本的生成医学视觉问答能力。作者通过在多个数据集上进行评估，包括一个新颖的具有挑战性的开放式视觉USMLE风格问题的问答数据集，评估了Med-Flamingo的性能。此外，作者还进行了首次针对生成型医学问答的人类评估，医生在交互式应用中对问题和盲目生成的答案进行评估。结果显示，Med-Flamingo在医学问题的生成型问答中将性能提高了高达20%的临床评分，并首次实现了多模态医学少样本适应性，例如生成原理。

如何使用ChatPaper？

使用ChatPaper的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。
在这里插入图片描述