实时追踪科研动态丨7.27精选新论文，附ChatPaper综述

AMiner学术搜索和科技情报挖掘

于 2023-07-28 11:45:07 发布

阅读量171

点赞数

文章标签：科研学术论文人工智能 ai

本文链接：https://blog.csdn.net/AI_Conf/article/details/131977072

版权

本文介绍了多篇关于LLM增强扩散模型理解，文本到3D生成方法，智能音频创作系统，语言模型在推荐系统和生物医学中的应用，以及Web环境和缺陷检测工具的最新研究。这些进展展示了AI在理解和创造内容方面的进步。

摘要由CSDN通过智能技术生成

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。
在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/

2023年7月27日精选新论文列表：

1.LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models 论文详情页

https://www.aminer.cn/pub/646d863cd68f896efa09f1bc/

在使用扩散模型生成文本到图像时，仍然存在一些困难，尤其是对于需要空间或常识推理的提示。为了解决这个问题，研究者提出了一种新的方法，通过使用预训练的大规模语言模型（LLM）来加强扩散模型的推理能力。该方法主要分为两个阶段：首先，通过上下文学习将LLM改造为文本引导的布局生成器，当提供图像提示时，LLM会以边界框的形式输出场景布局和相应的描述。然后，在第二阶段，使用一个新的控制器来引导扩散模型生成与布局相条件的图像。整个过程中，使用的都是预训练好的模型，没有对LLM或扩散模型参数进行优化。通过验证实验证实了这种设计的优越性，能够准确地生成根据需要同时考虑语言和空间推理的提示的图像。此外，该方法还能自然地允许基于对话的场景规范，并能处理对底层扩散模型支持不好的语言提示。

2.Points-to-3D: Bridging the Gap between Sparse Points and Shape-Controllable Text-to-3D Generation 论文详情页

https://www.aminer.cn/pub/64c1ec613fda6d7f063973c3/

论文主要指出了现有的文本到3D生成方法存在的问题，即与稀疏但可自由获取的3D点云之间存在差距，导致生成的3D模型缺乏真实性和可控性。现有的方法主要依靠评分蒸馏来利用2D扩散先验来监督3D模型的生成，然而，评分蒸馏容易遭受视角不一致问题，并且隐式的3D模型也可能导致任意的形状，从而导致生成的3D模型不够真实和可控。因此，该论文提出了一种灵活的Points-to-3D框架，通过从2D和3D扩散模型中提取知识来弥补稀疏点云与真实形状可控3D生成之间的差距。具体而言，Points-to-3D的核心思想是引入可控的稀疏3D点云来指导文本到3D的生成过程。具体地，利用从3D扩散模型Point-E生成的稀疏点云作为几何先验，以单个参考图像为条件。为了更好地利用稀疏的3D点云，论文提出了一种高效的点云引导损失，以自适应地驱动NeRF的几何形状与稀疏3D点云的形状对齐。除了控制几何形状，论文还提出了优化NeRF以获得更具视角一致性的外观。具体而言，论文对公开可用的2D图像扩散模型ControlNet进行评分蒸馏，以文本和学习到的紧凑几何形状的深度图作为条件。定性和定量比较表明，Points-to-3D改善了视角一致性，并实现了良好的形状可控性。Points-to-3D为用户提供了改进和控制文本到3D生成的新方法。

3.WavJourney: Compositional Audio Creation with Large Language Models 论文详情页

https://www.aminer.cn/pub/64c1f06d3fda6d7f063cb367/

目前人工智能生成内容领域中一个尚未被探索的问题：如何利用大型语言模型进行智能音频内容的创作。目前大型语言模型已经在整合多个专家模型来解决复杂的语言和视觉任务上取得了令人瞩目的成果。本研究通过引入WavJourney系统，利用大型语言模型连接各种音频模型进行音频内容生成。给定一个听觉场景的文本描述，WavJourney首先通过大型语言模型生成了一个专门用于音频叙事的结构化脚本。音频脚本根据音频元素之间的时空关系进行组织，对音频进行了概念化的表示，使人们能够与之进行互动和解释。然后，音频脚本被传入一个脚本编译器，将其转换为计算机程序。程序的每一行调用特定任务的音频生成模型或计算操作函数（例如，拼接、混音）。然后执行计算机程序，得到一个可解释的音频生成解决方案。研究还展示了WavJourney在科幻、教育和广播剧等不同实际场景中的实用性。WavJourney系统设计具有可解释性和交互性，促进了人机共同创作，提高了音频制作过程中的创造控制和适应性。WavJourney通过音频化人类的想象力，为多媒体内容创作开辟了新的可能性。

4.Large Language Models are Competitive Near Cold-start Recommenders for Language- and Item-based Preferences 论文详情页

https://www.aminer.cn/pub/64c1ec613fda6d7f06397504/

文章研究了使用大型语言模型（LLM）根据基于物品和语言的偏好进行推荐的效果，并与最先进的基于物品的协同过滤（CF）方法进行比较。研究人员收集了一种新的数据集，其中包含用户基于物品和语言的偏好以及对各种（有偏见的）推荐物品和（无偏见的）随机物品的评分。在众多实验结果中，研究人员发现在没有物品偏好的纯语言偏好（零冷启动）的情况下，LLMs在推荐性能方面与基于物品的CF方法相比具有竞争力，尽管它们没有接受这个特定任务的有监督训练（零样本）或者只有一些标签（少样本）。这一发现非常有希望，因为基于语言的偏好表示比基于物品或向量的表示更易于解释和审查。

5.WebArena: A Realistic Web Environment for Building Autonomous Agents 论文详情页

https://www.aminer.cn/pub/64c1ec613fda6d7f0639738b/

当前自主代理的主要问题是它们主要在简化的合成环境中创建和测试，限制了对真实世界场景的代表性。作者构建了一个高度逼真且可复制的代理命令与控制环境，专注于在网站上执行任务的代理。他们提供了丰富的工具和外部知识库来鼓励类似人类的任务解决。该论文还发布了一组基准任务，重点评估任务完成的功能正确性。结果表明，解决复杂任务是具有挑战性的。最好的基于GPT-4的代理仅达到了10.59%的最终任务成功率。这些结果突出了进一步开发强大代理的需求，表明当前最先进的语言模型在这些真实生活任务中的性能还远未达到完美，并且WebArena可以用来衡量这样的进展。

6.ForestMonkey: Toolkit for Reasoning with AI-based Defect Detection and Classification Models 论文详情页

https://www.aminer.cn/pub/64c1ec613fda6d7f06397360/

论文介绍了一个名为Forest Monkey（FM）的工具包，该工具包旨在用数据解释性推理任何基于人工智能（AI）的缺陷检测和/或分类模型的输出。该工具包以Python包的形式实现，接收数据集文件夹路径作为输入（包括原始图像、真实标签和预测标签），并提供一组图表和文本文件来说明推理结果并提出可能的改进措施。FM工具包包括从预测中提取特征到推理目标、从图像中提取特征到缺陷特性以及基于决策树的AI推理器等过程。此外，该论文还调查了将FM工具包应用于具有不同数据集的四个AI模型时的时间性能。最后，论文提供了一个教程，指导用户使用FM工具包进行推理任务。

7.How to Scale Your EMA 论文详情页

https://www.aminer.cn/pub/64c1ec613fda6d7f0639735e/

文章说明了在使用模型指数移动平均（EMA）时，以往的方法没有考虑到不同批量大小下优化的训练动态，导致模型性能较低。为了解决这个问题，文章提出了一种适用于使用EMA的优化的缩放规则，并在各种架构、优化器和数据模态下证明了其有效性。同时，文章还展示了在模型EMA对目标模型的优化中，该规则的适用性，使得我们可以在小批量大小和大批量大小下训练基于EMA的伪标签和自监督学习方法。对于自监督学习来说，我们可以在批量大小达到24,576的情况下训练BYOL模型而不损失性能，从而实现了6倍的墙钟时间缩减。

8.E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning 论文详情页

https://www.aminer.cn/pub/64c1ec613fda6d7f0639732f/

在大规模的基于Transformer的模型上进行微调时，参数密集度较高，效率较低。尽管已经开发了参数高效学习的方法来减少微调过程中可调参数的数量，但与完全微调相比仍存在显著的性能差距。为了解决这个挑战，提出了一种称为E^2VPT的有效且高效的视觉提示调优方法，用于大规模的基于Transformer的模型适应。具体而言，引入了一组可学习的键值提示和视觉提示，分别用于自注意力和输入层，以提高模型微调的效果。此外，还设计了一个提示修剪过程，可以系统地修剪低重要度的提示，同时保持模型性能，从而极大地提升了模型的效率。实证结果表明，该方法在两个基准测试上优于几个最先进的基准方法，并且使用的参数非常低（例如，在VTAB-1k上仅占模型参数的0.32%）

9.Towards Generalist Biomedical AI 论文详情页

https://www.aminer.cn/pub/64c1f06d3fda6d7f063cb366/

为了实现普适性生物医学人工智能系统的发展，需要克服多模态数据处理的问题，并提出了一个多模态生物医学基准，命名为MultiMedBench，它包括医学问答、乳腺X光和皮肤病图象解读、放射学报告生成和总结、基因组变异检测等14个不同的任务。作者还介绍了Med-PaLM M，这是一个大型多模态生成模型，可以灵活编码和解释包括临床语言、影像和基因组在内的生物医学数据。Med-PaLM M在所有MultiMedBench任务上的表现达到或超过了现有技术的水平，通常远远超过专家模型。文章还对Med-PaLM M进行了放射科医师评估，发现在246个回顾性胸部X光片中，临床医师在40.50%的情况下更倾向于选择由Med-PaLM M生成的报告，表明其具有潜在的临床应用价值。尽管仍需要进一步验证这些模型在实际应用中的效果，但这些结果代表了发展普适性生物医学人工智能系统的重要进展。

10.Evaluating Large Language Models for Radiology Natural Language Processing 论文详情页

https://www.aminer.cn/pub/64c09a9c3fda6d7f06e3e9de/

研究指出了在放射学自然语言处理领域缺乏对大型语言模型（LLMs）进行全面评估的问题。虽然大型语言模型在医疗领域取得了重大影响，但对这些模型进行评估的工作尚未进行。该研究旨在通过对32个大型语言模型在解读放射学报告中的印象提取能力进行评估，填补这一空白。评估的结果将为这些大型语言模型的性能、优势和劣势提供关键见解，并指导它们在医疗领域中的实际应用。

11.Decoding ChatGPT: A Taxonomy of Existing Research, Current Challenges, and Possible Future Directions 论文详情页

https://www.aminer.cn/pub/64c1ec613fda6d7f0639748c/

1.ChatGPT的潜力：论文指出自从ChatGPT在2022年11月发布以来，它在许多领域展现了出色的性能，包括通过考试和创意写作。这显示了ChatGPT在提供多领域应用方面的潜力。2. ChatGPT应用领域的多样性：论文研究了ChatGPT在多个领域的应用，包括医疗保健、市场营销和金融服务、软件工程、学术和科学写作、研究和教育、环境科学以及自然语言处理。通过对这些应用的研究，我们可以了解ChatGPT在解决现实世界挑战方面的潜力。3. 偏见和可信度的问题：论文指出，与ChatGPT相关的偏见和可信度问题仍然存在挑战和关注。这表明在这些领域需要进一步的研究和发展。4. ChatGPT研究的未来方向：论文提出了ChatGPT研究的潜在未来方向，包括解决当前挑战和预测未来的进展。通过充分利用ChatGPT的能力，可以在各个领域实现其潜力，并在社会中产生转型性影响。

如何使用ChatPaper？
作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。
在这里插入图片描述