论文名:Self-supervised Single-view 3D Reconstruction via Semantic Consistency
作者:Xueting Li, Sifei Liu, Kihwan Kim, Shalini De Mello, Varun Jampani, Ming-Hsuan Yang, and Jan Kautz
What
- 从 2D 图像 和 mask 中 预测 3D mesh shap, texture 和 camera pose的 工作。
- 不需要3D的标注 或者 特征点标注 或者 多视角的图像 或者 3D先验的模板
- 只需要 同一类物体的图像,有相同的part (比如鸟都有喙)。
How
- 用了 SCOPS 方法 做语义分割。
- 语义部件不变性(semantic part invariance) 。一个点的语义是不会改变的,即使形状发生改变 。 这和我们前一篇讲的 Location Consistency 差不多。
- 构建的 uv map是用 semantic segmentation 的结果。
- 这边 只有一个encoder 来编码image,有多个decoder 分别预测 shape,camera 和 texture。
- 同样的 shape decoder,只是预测bias。
- 同样的 texture decoder,预测的是 flow。
疑问
- 这边鸟的话,所有semantic uv map 都是一样的么? 看Fig3 对于这个 uv map 还是有点疑问。
- 从 single image 预测 semantic uv map