CV每日论文--2024.7.15

计算机视觉每日论文

于 2024-07-17 09:06:16 发布

阅读量375

点赞数 10

文章标签：人工智能计算机视觉算法深度学习机器学习

本文链接：https://blog.csdn.net/u012854516/article/details/140484375

版权

1、StyleSplat: 3D Object Style Transfer with Gaussian Splatting

中文标题：StyleSplat：使用高斯分布进行 3D 对象样式转换

简介：最近,辐射场技术的进步为创造高质量的三维资产和场景开辟了新的可能性。样式转移可以为这些三维资产赋予不同的艺术风格,实现创造性的表达。然而,现有技术通常速度较慢,或无法将样式转移定位到特定对象。

我们介绍了 StyleSplat,这是一种轻量级的方法,可在由参考样式图像的三维高斯表示的场景中为三维对象添加风格。我们的方法首先使用三维高斯喷涂学习场景的照片级表示,同时分割单个三维对象。然后,我们使用最近邻特征匹配损失来微调所选对象的高斯函数,将它们的球谐系数与样式图像对齐,以确保一致性和视觉吸引力。

StyleSplat 允许快速、可定制的样式转移和场景内多个对象的本地化风格化,每个对象都有不同的风格。我们展示了它在各种三维场景和风格中的有效性,证明了在三维创作中增强的控制和定制化。

2、Let Me DeCode You: Decoder Conditioning with Tabular Data

中文标题：让我为您解码：使用表格数据进行解码器调节

简介：本研究介绍了一种新的方法 DeCode,通过利用标签派生特征来支持解码器在重建过程中动态地进行模型调整,以提高训练效率,解决 3D 分割任务中模型性能提升的挑战。

DeCode 通过将学习到的 3D 标签形状特征的数值表示与调节嵌入相结合,专注于通过改进 3D 分割性能来提高模型性能。具体来说,我们开发了一种方法,在训练阶段应用调节嵌入来指导网络朝着强健的分割方向发展。当在推理过程中标签不可用时,我们的模型可以直接从输入数据中推断出必要的调节嵌入,这得益于在训练阶段学习的前馈网络。

我们使用合成数据和牙齿锥束计算机断层扫描 (CBCT) 图像进行测试。对于 CBCT,我们使用了一个公开数据集和两个内部数据集。我们的结果表明,DeCode 在泛化到未见数据方面显著优于传统的非调节模型,在降低计算成本的同时实现了更高的准确性。

这项工作是首次探索 3D 数据分割中的调节策略,提供了一种新颖且更高效的利用注释数据的方法。我们的代码和预训练模型已公开在 https://github.com/SanoScience/DeCode 。

3、Rethinking temporal self-similarity for repetitive action counting

中文标题：重新思考重复动作计数的时间自相似性

简介：计算长时间未剪辑视频中的重复动作是一项具有挑战性的任务,但却有许多应用,如康复领域。目前最先进的方法是首先从采样帧生成时间自相似矩阵(TSM),然后将其馈送到预测器网络中,以预测动作计数。

然而,自相似矩阵并非网络的最佳输入,因为它从逐帧嵌入中丢弃了太多信息。因此,我们重新思考了如何利用TSM来计数重复动作,提出了一个新的框架。该框架学习嵌入并预测完整时间分辨率下的动作起始概率,然后从动作起始概率推断出重复动作的数量。

与当前将TSM作为中间表示的方法不同,我们提出了一种基于生成的参考TSM的新型损失函数。该损失函数要求学习的逐帧嵌入的自相似性与重复动作的自相似性一致。

所提出的框架在三个数据集(RepCount、UCFRep和Countix)上实现了最先进的结果。这项工作为计算长时间未剪辑视频中重复动作提供了一种新颖且更有效的方法。

计算机视觉每日论文

关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CV每日论文--2024.7.15

当在推理过程中标签不可用时,我们的模型可以直接从输入数据中推断出必要的调节嵌入,这得益于在训练阶段学习的前馈网络。我们介绍了 StyleSplat,这是一种轻量级的方法,可在由参考样式图像的三维高斯表示的场景中为三维对象添加风格。我们的结果表明,DeCode 在泛化到未见数据方面显著优于传统的非调节模型,在降低计算成本的同时实现了更高的准确性。：本研究介绍了一种新的方法 DeCode,通过利用标签派生特征来支持解码器在重建过程中动态地进行模型调整,以提高训练效率,解决 3D 分割任务中模型性能提升的挑战。
复制链接

扫一扫