Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild(CVPR20)

本文的效果其实也一般,去网站demo跑一下就知道了,一个明显的瑕疵是眼睛容易被预测成尖的;尽管如此,还是可以从源代码中学习到很多东西(因为支持透视投影)
同时,可以对比一下DECA,因为DECA也是使用了displacement map

本文的方法对于嘟嘴,也无法重建出来,一是因为嘟嘴被投影成图像后,信息丢失太多了,难度很大;二是数据集中本身嘟嘴的图像就不多

3. Method

本文的方法不仅局限于人脸,只要是同一个类别的object就行

As we have only raw images to learn from, the learning objective is reconstructive: namely, the model is trained so that the combination of the four factors gives back the input image.
在只有图像的情况下,只能考虑优化重构损失,即自监督

we use the fact that many object categories are bilaterally symmetric. However, the
appearance of object instances is never perfectly symmetric.
本文的假设:物体大致是对称性,大致对称意味着总体上是对称的,但是图像中细节的地方是不对称的

Asymmetries arise from shape deformation, asymmetric albedo and asymmetric illumination. We take two measures to account for these asymmetries. First, we explicitly model asymmetric illumination. Second, our model also estimates, for each pixel in the input image, a confidence score that explains the probability of the pixel having a symmetric counterpart in the image.
解决方法有2点:explicitly model asymmetric illumination,以及predict a confidence score for each pixel

3.1. Photo-geometric autoencoding

一幅图像 I \mathbf{I} I 其实可以定义成一个函数 Ω → R 3 , Ω = { 0 , ⋯   , W − 1 } × { 0 , ⋯   , H − 1 } \Omega\rightarrow \mathbb{R}^3, \Omega=\left \{ 0,\cdots,W-1 \right \}\times\left \{ 0,\cdots,H-1 \right \} ΩR3,Ω={0,,W1}×{0,,H1},即将图像网格的每一个位置(像素),映射为RGB三个值

预测的目标是
depth map d d d Ω → R + \Omega\rightarrow \mathbb{R}^+ ΩR+,为每一个像素预测一个深度值
albedo image a a a Ω → R 3 \Omega\rightarrow \mathbb{R}^3 ΩR3,为每一个像素值预测一个RGB的albedo纹理
global light direction l ∈ S 2 l\in\mathbb{S}^2 lS2,为整幅图像预测全局的光照
viewpose w ∈ R 6 w\in\mathbb{R}^6 wR6,其实就是Rotation/Translation

预测之后基于图形学对图像进行重建
I ^ = Π ( Λ ( a , d , l ) , d , w ) ( 1 ) \hat{\mathbf{I}}=\Pi\left ( \Lambda(a, d, l), d, w \right ) \qquad(1) I^=Π(Λ(a,d,l),d,w)(1)
首先是 Λ ( a , d , l ) \Lambda(a, d, l) Λ(a,d,l),称为lighting function,光线 l l l打在几何形状 d d d上形成shading效果,最终加到albedo a a a上 ,结果 Λ ( a , d , l ) \Lambda(a, d, l) Λ(a,d,l)被称为shaded canonical image

然后是 Π ( img , d , w ) \Pi\left ( \text{img}, d, w \right ) Π(img,d,w),称为reprojection,渲染成了一幅图像

最终的优化目标肯定是 I ^ = I \hat{\mathbf{I}}=\mathbf{I} I^=I

shading provides an additional cue on the underlying 3D shape [24, 3]
图像的几何形状,在light的作用下产生了图像中的shading效果,所以说shading是shape的一种cue

3.2. Probably symmetric objects

An important beneficial side effect of this choice is that it helps the model discover a ‘canonical view’ for the object, which is important for reconstruction [44].
作者希望学出来的depth map和albedo是左右对称的
一个事实是:depth map和albedo不对称(歪了),其实也可以完美重构出原始图像,但这显然是不合适的

a a a进行水平翻转操作,记为 [ flip  a ] c , u , v = a c , W − 1 − u , v [\text{flip}\ a]_{c,u,v}=a_{c,W-1-u,v} [flip a]c,u,v=ac,W1u,v

于是可以做一个约束,令 d ≈ flip  d ′ , a ≈ flip  a ′ d\approx \text{flip}\ d', a\approx \text{flip}\ a' dflip d,aflip a,这是一个比较强的约束,作者没有使用

也可以进行“移花接木”,将 a , d a, d a,d替换为水平翻转的版本 a ′ , d ′ a', d' a,d,然后生成图像 I ^ ′ \hat{\mathbf{I}}' I^,新增约束 I = I ^ ′ \mathbf{I}=\hat{\mathbf{I}}' I=I^
I ^ ′ = Π ( Λ ( a ′ , d ′ , l ) , d ′ , w ) , a ′ = flip  a ,   d ′ = flip  d ( 2 ) \hat{\mathbf{I}}'=\Pi\left ( \Lambda(a', d', l), d^{\prime}, w \right ), \qquad a'= \text{flip}\ a, \ d'=\text{flip}\ d\qquad(2) I^=Π(Λ(a,d,l),d,w),a=flip a, d=flip d(2)

在设计loss衡量 I = I ^ \mathbf{I}=\hat{\mathbf{I}} I=I^时,作者使用了一种高级的方法,这种方法来自文献[32] NeurIPS17

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值