实时追踪科研动态丨杨健、Jürgen Schmidhuber等人8.17精选新论文，附ChatPaper综述

AMiner学术搜索和科技情报挖掘

于 2023-08-18 11:47:40 发布

阅读量280

点赞数

文章标签：人工智能语言模型深度学习论文阅读科技

本文链接：https://blog.csdn.net/AI_Conf/article/details/132358724

版权

ChatPaper是一款整合检索、阅读和知识问答的工具，提供前沿论文精选、深度解析及高效科研辅助。文章介绍了SceNeRFlow等技术在动态场景重建、视频生成和强化学习关键状态识别中的应用，展示了ChatPaper如何提升科研效率和内容理解质量。

摘要由CSDN通过智能技术生成

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

结合前沿动态订阅功能，精选arXiv当日热门新论文，形成论文综述，让大家更加快速了解前沿动态。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达ChatPaper页面：https://www.aminer.cn/chat/g/explain

2023年8月17日精选新论文列表：

1.SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes

https://www.aminer.cn/pub/64dd9b053fda6d7f0622e756/

ChatPaper综述：文章提出了一种名为SceNeRFlow的方法，旨在实现对一般的非刚性动态场景的时间一致重建。现有的非刚性物体4D重建方法主要集中在新视角合成，忽视了对应关系。然而，时间一致性可以实现高级下游任务，如3D编辑、运动分析或虚拟资产创造。该方法使用多视角RGB视频和已知相机参数的静态相机背景图像作为输入，通过在线方式重建估计的几何和外观的规范模型的变形。由于这个规范模型是时不变的，即使对于长期、长距离的运动，我们也能获得对应关系。方法使用神经场景表示来参数化其组成部分。与之前的动态NeRF方法一样，我们使用一个反向变形模型。为了处理更大的运动，我们对该模型进行了非平凡的调整：将变形分解为一个严格正则化的粗糙分量和一个弱正则化的精细分量，其中粗糙分量还将变形场扩展到物体周围的空间，以实现时间跟踪。实验证明，与之前只能处理小运动的工作不同，我们的方法能够实现大规模运动的重建。

2.Dual-Stream Diffusion Net for Text-to-Video Generation

https://www.aminer.cn/pub/64dd9b053fda6d7f0622e793/

ChatPaper综述：在生成视频过程中，视频经常会出现闪烁和伪影等问题，这是一个重要的瓶颈。为了改善生成视频中内容变化的一致性，提出了一种双流扩散网络（DSDN）。这种网络包括两个扩散流，视频内容和动态分支，它们可以分别在私有空间中运行，以生成个性化的视频变化和内容，并通过利用设计的交叉变换器交互模块在内容和动态领域之间实现良好对齐，从而提高生成视频的平滑度。此外，还引入了动态分解器和合并器来便于对视频动态进行操作。定性和定量实验证明，该方法可以生成更少闪烁的连续视频。

3.Teach LLMs to Personalize – An Approach inspired by Writing Education

https://www.aminer.cn/pub/64dd9b053fda6d7f0622e61f/

ChatPaper综述：传统的文本生成模型通常是一种通用的方法，不能针对不同领域或不同用户的个性化需求进行定制。因此，研究者提出了一种灵感来自写作教育的方法，通过教授大型语言模型（LLMs）个性化文本生成。与写作教育中的实践类似，他们提出了一个多阶段和多任务的框架来教授LLMs进行个性化文本生成。通过检索、排名、摘要、综合和生成等多个阶段的任务，模型可以学习如何从各种信息中获取、评估、总结、综合和生成个性化的文本。此外，他们还引入了多任务设置，以进一步改进模型的生成能力，这受到了教育领域中阅读能力和写作能力总是相关的观察启发。他们在三个公共数据集上评估了他们的方法，并与多种基线模型进行比较，结果显示出显著的改进。

4.TeCH: Text-guided Reconstruction of Lifelike Clothed Humans

https://www.aminer.cn/pub/64dd9b053fda6d7f0622e888/

ChatPaper综述：在从单个图像中重建穿着衣物的人物时，准确还原“看不见的区域”并保留高级细节仍然是一个未解决的具有较少关注的挑战。现有方法通常会生成过于平滑的背面表面和模糊的纹理。但是，如何从单个图像中有效地捕捉一个人的所有视觉特征，足以重建看不见的区域（例如背面视图）？TeCH利用1）通过服装解析模型和视觉问答（VQA）自动生成的描述性文本提示（例如服装、颜色、发型）以及2）经过个性化微调的文本到图像扩散模型（T2I），重构3D人体。为了以可负担的成本表示高分辨率的穿着衣物的人体，我们提出了基于DMTet的混合3D表示，它包括明确的身体形状网格和隐式距离场。在描述性提示+个性化T2I扩散模型的指导下，通过多视角评分蒸馏采样（SDS）和基于原始观察的重建损失，优化了3D人体的几何和纹理。TeCH生成具有一致且精细纹理、详细全身几何的高保真度3D穿着衣物的人体。定量和定性实验证明，TeCH在重建准确性和渲染质量方面优于现有的最先进方法。

5.DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

https://www.aminer.cn/pub/64dd9b053fda6d7f0622e6a1/

ChatPaper综述：论文说明了控制视频生成的两个主要限制。首先，现有的大部分研究集中在文本、图像或轨迹的控制上，导致无法实现视频内容的细粒度控制。其次，轨迹控制的研究还处于初级阶段，大部分实验只在简单的数据集上进行，如Human3.6M。这种限制限制了模型处理开放域图像和有效处理复杂曲线轨迹的能力。为了解决现有工作中控制粒度不足的问题，该论文同时引入了文本、图像和轨迹信息，从语义、空间和时间视角对视频内容进行细粒度控制。为了解决当前研究中开放域轨迹控制的问题，论文提出了三个方面的轨迹建模方法：Trajectory Sampler（TS）用于实现对任意轨迹的开放域控制，Multiscale Fusion（MF）用于控制不同粒度的轨迹，Adaptive Training（AT）策略用于生成沿轨迹连贯的视频。实验证明了DragNUWA的有效性，并展示了其在视频生成中细粒度控制方面的卓越性能。

6.CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

https://www.aminer.cn/pub/64dc49933fda6d7f06389f80/

ChatPaper综述：论文介绍了一种新型的视频表示方法CoDeF，可以在视频处理中实现更为稳定的跨帧一致性。通过将视频分为一个统一的内容场和一个时间变形场，可以通过渲染过程来重建目标视频。作者在优化过程中引入了一些规范化方法，使得内容场能够从视频中继承语义信息，并且支持将图像算法应用于视频处理中。实验证明，CoDeF能够将图像到图像的转换扩展到视频到视频的转换，并且可以在没有训练的情况下进行关键点跟踪。与现有的视频到视频转换方法相比，CoDeF实现了更优的跨帧一致性，甚至可以追踪非刚性物体。

7.Relightable and Animatable Neural Avatar from Sparse-View Video

https://www.aminer.cn/pub/64dc49933fda6d7f06389f69/

ChatPaper综述：论文探讨了从稀疏视角（甚至是单目）视频中创建可重点燃和可动画的神经头像的挑战。与工作室环境相比，这种设置更加实用和可接近，但也带来了一个极具挑战的不适定问题。之前的神经人体重建方法能够使用变形有符号距离场（Signed Distance Fields，SDF）从稀疏视角重建可动画的头像，但无法恢复用于重照明的材料参数。虽然可微反渲染方法已成功在静态物体上实现了材料恢复，但将其扩展到动态人体并不直接，因为计算变形SDF的像素-表面交点和光能见度在反渲染中需要大量计算资源。为了解决这个挑战，我们提出了一种分层距离查询（HDQ）算法来近似任意人体姿势下的世界空间距离。具体来说，我们基于参数化人体模型估计粗糙距离，并通过利用SDF的局部变形不变性计算细致距离。基于HDQ算法，我们利用球追踪来有效地估计表面交点和光能见度。这使我们能够开发出第一个能够从稀疏视角（或单目）输入中恢复可动画和可重照的神经头像的系统。实验证明，与最先进的方法相比，我们的方法能够产生更优秀的结果。我们的代码将被发布以实现可重现性。

8.Learning to Identify Critical States for Reinforcement Learning from Videos

https://www.aminer.cn/pub/64dc49903fda6d7f06389d06/

ChatPaper综述：论文描述了深度强化学习中的一个问题：如何从视频中学习识别关键状态以促进智能体的行为改进。没有依赖于地面实况注释，作者提出了一种新的方法，即深层状态识别器，该方法通过学习从视频编码的剧集中预测回报，并使用一种基于掩码的敏感性分析方法来提取和识别重要的关键状态。通过大量实验证明了该方法理解和改进智能体行为的潜力。

如何使用ChatPaper？
使用ChatPaper的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。

在这里插入图片描述