实时追踪科研动态丨8.8精选新论文，附ChatPaper综述

AMiner学术搜索和科技情报挖掘

于 2023-08-10 10:58:01 发布

阅读量158

点赞数

文章标签：科研论文学术人工智能 ai

本文链接：https://blog.csdn.net/AI_Conf/article/details/132204347

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。

然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/explain

2023年8月8日精选新论文列表：

1.Mirror-NeRF: Learning Neural Radiance Fields for Mirrors with Whitted-Style Ray Tracing 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3d1f/

ChatPaper综述：论文指出了Neural Radiance Fields (NeRF)在渲染镜子时存在的问题。由于NeRF的渲染管线中没有考虑物理反射，它将镜子中的反射误认为是一个单独的虚拟场景，导致镜子的重建不准确，并且镜子中的多视角反射不一致。为了解决这个问题，作者提出了一种名为Mirror-NeRF的新颖神经渲染框架，它能够准确地学习镜子的几何和反射，并支持各种与镜子相关的场景操作应用，如向场景中添加新对象或镜子，合成这些新对象在镜子中的反射，控制镜子的粗糙度等。为了实现这个目标，作者提出了一种统一的辐射场，并引入了反射概率和按照Whitted Ray Tracing的光传输模型跟踪光线，还开发了几种技术来促进学习过程。通过对合成和真实数据集进行实验和比较，证明了该方法的优越性。论文提供了项目网页的代码和补充材料。

2.SynJax: Structured Probability Distributions for JAX 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3d2b/

ChatPaper综述：文章说明了深度学习软件库的发展使得某些类型的深度学习模型受益良多，例如Transformers，因为它们的基本操作很容易映射到向量化计算。然而，那些明确考虑结构化对象（例如树和分割）的模型并没有同等受益，因为它们需要定制的算法，很难以向量化形式实现。SynJax通过为结构化分布的推理算法提供高效的向量化实现来直接解决这个问题。使用SynJax，我们可以构建大规模可微分的模型，明确地对数据中的结构进行建模。

3.FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3d2a/

ChatPaper综述：文章讨论了深度神经网络（DNNs）中量化技术所面临的问题。量化是一种主流的压缩技术，用于减小模型大小、计算要求和能量消耗。最近硬件的数值支持得到了改善，包括多个整数和浮点数变体，因此混合精度量化成为了实现高质量结果和低模型成本的必要手段。之前的混合精度量化方法要么进行后训练量化搜索，这会牺牲精度，要么进行可微量化搜索，这会导致分支带来的高内存使用。因此，该文章提出了首个一次性混合精度量化搜索方法，既能够应用于整数模型又能够应用于低精度浮点数模型，省去了重新训练的步骤。文章通过评估该方法在多个卷积网络和视觉变换器模型上的性能，发现了具有帕累托优化的模型。该方法发现的模型在均匀精度、手动混合精度和最近的整数量化搜索方法上取得了改进。通过提出的整数量化搜索方法，相比以前的方法，在ImageNet上，ResNet-18的准确率提高了1.31个百分点，ResNet-50提高了0.90个百分点，而模型成本保持不变。此外，该文章还首次探讨了一种新颖的混合精度浮点数搜索方法，并将MobileNetV2的准确率相比之前的最先进的FP8模型提高了最多0.98个百分点。最后，该方法还扩展到同时搜索量化和神经网络架构空间，并在MobileNetV2搜索空间上将ImageNet的准确率提高了2.69个百分点，且模型成本相似。

4.Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec39f4/

ChatPaper综述：论文说明了人类视觉感知与认知之间的基本机制仍然是一个未解之谜。作者通过结合神经科学和人工智能的进展，利用计算方法记录视觉诱发的脑活动，并模拟视觉感知能力。论文主要关注通过观察电脑脑电图（EEG）数据，基于这些可移植脑信号重建观察到的图像。由于EEG信号是动态的时间序列格式，而且往往含有噪声，因此处理和提取有用的信息需要更多的努力。作者提出了一个名为NeuroImagen的完整流程，用于从EEG信号重建视觉刺激图像。具体而言，他们结合了一个新颖的多层次感知信息解码方法，从给定的EEG数据中提取多粒度输出，然后采用潜在扩散模型来利用提取的信息重建高分辨率的视觉刺激图像。实验结果证明了图像重建的有效性，并显示出作者提出的方法在数量上更具优越性能。

5.AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose 论文详情页

https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4aa5/

ChatPaper综述：文章说明了从文本描述和姿势指导中创建具有表达力、多样性和高质量的3D头像是一项具有挑战性的任务。为了确保细节和各种风格（逼真、虚构等）在3D建模和纹理处理方面的复杂性。文章提出了AvatarVerse，这是一个稳定的流程，可以仅通过文本描述和姿势指导生成具有表达力和高质量的3D头像。具体而言，文章介绍了一种基于DensePose信号的2D扩散模型，通过2D图像建立头像的3D姿势控制，从而增强了部分观察场景的视图一致性。它解决了臭名昭著的Janus问题并显著稳定了生成过程。此外，文章提出了一种渐进式高分辨率的3D合成策略，大大提高了创建的3D头像的质量。因此，所提出的AvatarVerse流程实现了零样本的3D头像建模，这些头像不仅更具表现力，而且质量和保真度也优于先前的作品。严格的质量评估和用户研究展示了AvatarVerse在合成高保真度3D头像方面的优势，从而引领了高质量和稳定的3D头像创建的新标准。

6.ConceptLab: Creative Generation using Diffusion Prior Constraints 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3a9b/

ChatPaper综述：论文研究了如何生成之前从未见过的新概念的问题。目前文本到图像生成模型已经让我们能够将文字转化为生动、吸引人的图像。个性化技术的快速发展也使我们能够在新场景中想象出独特的概念。然而，一个有趣的问题仍然存在：如何生成一个之前从未见过的、全新的概念？本文提出了创造性文本到图像生成的任务，旨在生成广泛类别中的新成员（例如，生成一只与所有现有宠物不同的宠物）。作者利用了研究不足的Diffusion Prior模型，并展示了创造性生成问题可以被定义为对Diffusion Prior输出空间的优化过程，从而得到一组“先验约束”。为了使生成的概念不会收敛到现有成员，作者引入了一个问答模型，该模型自适应地向优化问题中添加新的约束，促使模型去发现越来越独特的创作。最后，作者还展示了他们的先验约束也可以作为一种强大的混合机制，使我们能够在生成的概念之间创建混合体，进一步增加了创造过程的灵活性。

7.AgentBench: Evaluating LLMs as Agents 论文详情页

https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4af3/

ChatPaper综述：文章指出，随着大规模语言模型（LLMs）变得越来越智能和自主，它们正在面向传统自然语言处理任务之外的现实世界实践任务，对于在交互环境中评估LLMs作为代理人的能力迫切需要。作者提出了AgentBench，这是一个不断发展的多维度基准测试，目前包括8个不同的环境，以评估LLM作为代理人在多轮开放式生成环境中的推理和决策能力。作者对25个LLMs进行了广泛的测试（包括API和开源模型），结果显示，虽然顶级商业LLMs在复杂环境中表现出了很强的代理能力，但它们与开源竞争对手之间的性能差距显著。该工作还作为一个持续进行的项目的组成部分，该项目对系统性LLM评估进行了更广泛的覆盖和深入思考。

8.TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3db6/

ChatPaper综述：论文讨论了基于大型语言模型的人工智能代理（LLM）在处理复杂任务方面可能面临的问题。尽管LLM具有强大的生成能力，但对于需要结合任务规划和使用外部工具的复杂任务来说，这种生成能力可能是不够的。为此，论文提出了一个针对LLM基础的AI代理的结构化框架，并讨论了处理复杂问题所需的关键能力。在该框架内，设计了两种不同类型的代理（即一步代理和顺序代理）来执行推理过程。随后，使用不同的LLM实例化了该框架，并评估了它们在典型任务中的任务规划和工具使用能力。通过强调关键发现和挑战，论文旨在为研究人员和实践者提供一个有用的资源，以利用LLM在他们的AI应用中的能力。本研究强调了这些模型的巨大潜力，同时也确定了需要更多研究和改进的领域。

9.AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning 论文详情页

https://www.aminer.cn/pub/64d1bdf93fda6d7f06ec4a50/

ChatPaper综述：论文讨论了使用大规模离线强化学习方法解决StarCraft II这个具有挑战性的环境的问题。StarCraft II是一个具有部分观测、随机性和多智能体的游戏，它要求玩家在长时间范围内进行战略规划并实时执行。该论文利用Blizzard发布的包含数百万个人类玩家对战记录的数据集，建立了一个名为AlphaStar Unplugged的基准，并提出了离线强化学习领域前所未有的挑战。论文中还介绍了基线代理算法，包括行为克隆、离线Actor-Critic和MuZero等方法。通过只使用离线数据，论文改进了现有代理方法的性能，并实现了90%的胜率，超过之前发布的AlphaStar行为克隆代理。

10.Pre-Trained Large Language Models for Industrial Control 论文详情页

https://www.aminer.cn/pub/64d1bde83fda6d7f06ec3c0f/

ChatPaper综述：文章主要针对的问题是：在工业控制领域，如何利用基于互联网规模语料库进行预训练的基础模型来开发具有少量样本和低技术债务的高性能控制器。通过以暖通空调建筑控制为例，研究了使用GPT-4（一种一级基础模型）作为控制器的能力，并通过给GPT-4提供任务的文本描述、选定的示范实例和当前观察结果来将控制任务包装成一种语言游戏，并执行GPT-4响应的操作。通过一系列实验证明了GPT-4在少样本和低技术债务情况下达到了与强化学习方法相媲美的性能，表明了直接将基础模型应用于工业控制任务的潜力。

👉ChatPaper使用教程：点此查看

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实时追踪科研动态丨8.8精选新论文，附ChatPaper综述

通过提出的整数量化搜索方法，相比以前的方法，在ImageNet上，ResNet-18的准确率提高了1.31个百分点，ResNet-50提高了0.90个百分点，而模型成本保持不变。为了解决这个问题，作者提出了一种名为Mirror-NeRF的新颖神经渲染框架，它能够准确地学习镜子的几何和反射，并支持各种与镜子相关的场景操作应用，如向场景中添加新对象或镜子，合成这些新对象在镜子中的反射，控制镜子的粗糙度等。为此，论文提出了一个针对LLM基础的AI代理的结构化框架，并讨论了处理复杂问题所需的关键能力。
复制链接

扫一扫