【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI

最新推荐文章于 2024-07-13 12:46:57 发布

Vampire94482664

最新推荐文章于 2024-07-13 12:46:57 发布

阅读量933

点赞数 29

文章标签：论文阅读笔记 3d

本文链接：https://blog.csdn.net/m0_73585751/article/details/138188109

版权

本文介绍了一项名为PHYSCENE的研究，它设计了物理合理和可交互的3D场景生成模型，通过条件扩散解决物理约束问题，如碰撞避免、对象布局和可达性。实验结果显示该模型在保持逼真度的同时，超越了现有SOTA在特定评估指标上。

摘要由CSDN通过智能技术生成

[写在开头] 深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬！
论文名称: PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI
论文链接: PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI
北京通用人工智能研究院，CVPR

MOTIVATION

主流的3D场景生成工作注重场景的逼真性与自然性，但忽略了场景的物理合理性和可交互性

CONTRIBUTION

为3D场景生成设计了一系列符合物理规律和可交互性的引导函数(guidance function)
提出了一个基于条件扩散的3D场景生成模型 PHYSCENE，并且在传统的场景生成指标上超过了sota

PHYSCENE

主流的3D场景生成数据集存在一系列不符合物理规律的现象，如3D-FRONT

为了准确地建模物理合理性和交互性，论文提出了3种关键约束：
collision avoidance，object layouts，reachability

Collision avoidance

假设场景中有 $N$ 个物体，记 $b_i$ 为物体 $O_i$ 的3D BBOX，使用 3D IoU 计算物体 $O_i$ 与物体 $O_j$ 之间的重合，取负值是为了惩罚重合
在这里插入图片描述

Object layouts

给定房间平面图 $F$ ，首先从平面图提取为一个多边形，作为场景的外围；在场景外围放置 $W$ 个无穷厚的障碍，得到一系列障碍物 BBOX $\{b^{wall}_{w}\}^W_{w=1}$
计算场景中的物体与外围障碍的 3D IoU，取负值是针对超出场景边界的物体进行惩罚
在这里插入图片描述

Reachability

给定房间平面图 $F$ ，记智能体的BBOX为 $b^{agent}$ ；将3D场景俯视投影到2D平面，生成代价地图；以两个最大且相连的区域的中心为起点和终点，使用A*搜索算法搜索出最短路径；在这条最短路径上选择 $L$ 个智能体的位置 $\{b^{agnet}_1,...,b^{agent}_L\}$ ，
计算 $L$ 个智能体与场景中所有物体的 3D IoU，取负值是为了惩罚物体间距太窄、智能体无法通过
在这里插入图片描述

Conditional diffusion

扩散模型是一个“加噪+去噪”的过程
前向加噪：给定初始房间布局 $X_0$ ，逐步添加高斯噪声 $q(X_{t+1};X_t)$ ， $T$ 时间步后得到近似高斯噪声 $X_T$
反向去噪：网络参数为 $\theta$ ，逐步去除噪声 $p_{\theta}(X_{t};X_{t+1})$ ，最终重构得到 $X_0$
因为加噪的时候添加的是高斯噪声，(Denoising Diffusion Probabilistic Models)假设去除的也是高斯噪声
使用 $\mu_{\theta}(X_t,t,F)$ 表示二维高斯分布均值， $\sum _{\theta}(X_t,t,F)$ 代表二维高斯分布方差，则
在这里插入图片描述

$p_{\theta}(X_0|F)$ 代表 $X_0$ 的概率分布
$p_{\theta}(X_t|F)=p(X_T)\prod_{k=t+1}^{T}p_{\theta}(X_{k-1}|X_k,F)$ 代表 $X_t$ 的概率分布
论文将逐步去噪的过程表述为概率优化问题，记 $O$ 服从伯努利分布，表示去噪得到的 $X_t$ 是否服从约束函数，则
$p(X_t|F,O=1)\propto p_{\theta}(X_t|F)p(O=1|X_t,F)$
用约束函数替换 $O$ ，则
$p(X_t|F,O=1)\propto p_{\theta}(X_t|F)\exp (\sum\varphi_i (X_t,F))$

$log p(O=1|X_t,F)$ 是关于 $X_t$ 的函数，记 $\mu=\mu_{\theta}(X_t,t,F)$ 在 $X_t=\mu$ 处作一阶泰勒展开，则
$\log p(O=1|X_t,F)\approx C+(X_t-\mu)\nabla_{X_t}\log p(O=1|X_t,F)|_{X_t=\mu}$
用约束函数替换 $O$ ，则
$\nabla_{X_t}\log p(O=1|X_t,F)|_{X_t=\mu}=\nabla_{X_t}\log (\exp (\sum\varphi_i (X_t,F)))|_{X_t=\mu}=\nabla_{X_t}\sum\varphi_i (X_t,F)|_{X_t=\mu}$
记 $g=\nabla_{X_t}\varphi_i(X_t,F)|_{X_t=\mu}$ ，则
$\log p(O=1|X_t,F)\approx C+(X_t-\mu)\sum g$
没加约束函数时，逐步去噪过程可以表述为如下高斯分布：
在这里插入图片描述

添加约束函数后，逐步去噪过程可以表述为如下高斯分布，与约束函数的梯度有关：
$p_{\theta}(X_{t-1}|X_t,F,O=1)=N(X_{t-1};\mu+\lambda\sum g,\sum _{\theta}(X_t,t,F))$

Framework

在这里插入图片描述
给定 $t + 1$ 时间步的图片 $X_{t+1}$ ，使用带有注意力模块的U-Net建模去噪过程，得到 $X_t$ 后计算约束函数的梯度，最终得到 $X_{t}'$

Articulated objects

为了增强场景的可交互性，作者将生成场景中的物体替换成可交互的物体。
可交互物体来源于3D-FUTURE和GAPartNet，里面包含物体的CAD模型等
场景中物体 $O i$ 的形状特征为 $f_i\in R_{32}$ ，使用形状特征在物体数据中检索，需要最匹配的物体进行替换
在这里插入图片描述

Experiment

论文进行了两组实验，一组是给定初始布局图 $F$ （conditioned Scene Synthesis），另一组不给（Unconditioned Scene Synthesis）
实验数据集为3D-FRONT，比较模型为两个sota方法，ATISS和DiffuScene

Metric

Fréchet Inception Distance (FID)
Kernel Inception Distance (KID ×0.001)
Scene Classification Accuracy (SCA)
Category KL divergence (CKL ×0.01)
论文自己定义了一些指标
$Col_{obj}$ ，即生成的场景中，{存在重合的物体数量}/{所有物体数量}，越低越好
$Col_{scene}$ ，即{存在物体重合的场景数量}/{所有场景数量}，越低越好
$R_{out}$ ，即生成场景中，{发生穿墙现象的物体数量}/{所有物体数量}，越低越好
$R_{reach}$ ，即生成场景中，{智能体可交互的物体数量}/{所有物体数量}，越高越好
$R_{walkable}$ ，即生成场景中，{智能体可到达的区域面积}/{所有可行走的区域面积}，越高越好

Unconditioned Scene Synthesis

在这里插入图片描述

Conditioned Scene Synthesis

在这里插入图片描述

Ablation Study

在这里插入图片描述

Articulated objects

在3D-FRONT数据集的living room setting
在这里插入图片描述

想法

论文在智能体可达性上提升没有太大
需要操作小物体的场景

以上就是这篇论文PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI的阅读笔记，大家可以去读一读。

创作不易，转载请注明出处。

Vampire94482664

关注

29
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI

深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬！
复制链接

扫一扫

【论文阅读笔记】PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI

MOTIVATION

CONTRIBUTION

PHYSCENE

Collision avoidance

Object layouts

Reachability

Conditional diffusion

Framework

Articulated objects

Experiment

Metric

Unconditioned Scene Synthesis

Conditioned Scene Synthesis

Ablation Study

Articulated objects

想法

“相关推荐”对你有帮助么？