![56f71a821952c5133b7409be37bb7a24.png](https://i-blog.csdnimg.cn/blog_migrate/551530b6928dbbdedbe216a42e43a1ba.jpeg)
143页博士学位论文,共计327篇参考文献。本文从单个或多个视图的对象级3D形状估计到场景级语义理解做出了三个核心贡献:
1.从单视图恢复3D物体结构;
2.从单视图重建扩展到多视图场景;
3.从复杂的3D场景中识别所有物体实例。
Learning to Reconstruct and Segment 3D Objects
作者:Bo Yang 牛津大学(即将入职香港理工大学,担任助理教授AP)
主页:The Hong Kong Polytechnic University
论文: https:// arxiv.org/abs/2010.0958 2
注:文末附三维重建交流群。如果上述论文链接无法访问,可以看文末,论文已上传至百度云,方便下载。
![711e60eeb66b9d77435eb695735fa07b.png](https://i-blog.csdnimg.cn/blog_migrate/1a6437167ad906a4c11636461644ad1f.jpeg)
赋予机器像人类一样以三维表示感知现实世界的能力,这是人工智能领域的一个基本且长期存在的话题。给定不同类型的视觉输入,例如2D / 3D传感器获取的图像或点云,一个重要的目标是了解3D环境的几何结构和语义。传统方法通常利用手工制作的特征来估计对象或场景的形状和语义。但是,它们很难泛化到新颖的对象和场景,并且难以克服视觉遮挡引起的关键问题。相比之下,我们的目标是通过使用深度神经网络(经过大规模真实世界3D数据训练)学习通用的鲁棒表示,来理解场景和其中的对象。为了实现这些目标,本文从单个或多个视图的对象级3D形状估计到场景级语义理解做出了三个核心贡献。
![621e1ac0f6c281876fb8c5510bdcfb1e.png](https://i-blog.csdnimg.cn/blog_migrate/99c4fd6a1d384adea9cda68cf6f99f69.jpeg)
![65d15da6b3fbd27f467d17eb93fa6608.png](https://i-blog.csdnimg.cn/blog_migrate/c2035a20f4f692979d67a02b69258830.jpeg)
![22010b82e014d997499369e24875ab14.png](https://i-blog.csdnimg.cn/blog_migrate/f23d78d77766cef26c79436603c9d61a.jpeg)
本博士论文结构
![29f6f535e70468ff8a7dd6ccc84e1d5a.png](https://i-blog.csdnimg.cn/blog_migrate/d3eff3d0f75068343b7a158b5b39ceb5.jpeg)
博士论文部分节选
一、从单视图重建3D物体
![dfe5c32ad4646d4aeca656dd14d38bc2.png](https://i-blog.csdnimg.cn/blog_migrate/4f106fc4f08f4bc15f86ac090bcd8584.jpeg)
![85e0c8eef4355667052b38d659bf9e6f.png](https://i-blog.csdnimg.cn/blog_migrate/16d4ca71b53b0a222ea3c673b72b8835.jpeg)
![5640107cba54d709893893ffcef7bec5.png](https://i-blog.csdnimg.cn/blog_migrate/d4f2ec13c734bf3a6339e933d5b5ed47.jpeg)
![a807a186729deaf580a9198ced872490.png](https://i-blog.csdnimg.cn/blog_migrate/be9464fedc9c69064707ce79a9a41cac.jpeg)
二、从多视图重建3D物体
![6485d9399f7cfac9a464f0d9130caf0e.png](https://i-blog.csdnimg.cn/blog_migrate/e7079caa3be5b2bcc9ec205f1e0ad7d2.jpeg)
![64e2ed5812629f37ea75ba386df5d0b7.png](https://i-blog.csdnimg.cn/blog_migrate/a347fa841b559a90344cd01a651216dd.jpeg)
![2f0255e4e5edb41113804e367c0944cd.png](https://i-blog.csdnimg.cn/blog_migrate/1e849c12f8f462111cee8bf237b7e486.jpeg)
![89e0af42f49fd73ce400f76c2521ab4d.png](https://i-blog.csdnimg.cn/blog_migrate/65dfb5220a459d7d7fd609de51dfc55f.jpeg)
三、学习从点云分割3D物体
![83eef11a898c75dc22e60c3f5d7c0ccb.png](https://i-blog.csdnimg.cn/blog_migrate/1b2fd6e533b4d5cddc4335a5071b3347.jpeg)
![e814ef6ab5fbca7118434bd79f24bca4.png](https://i-blog.csdnimg.cn/blog_migrate/ac1989816c9ba76f326347dc0f48a792.jpeg)
![72d6865ce1a6c0d52a328e6e49f2fafe.png](https://i-blog.csdnimg.cn/blog_migrate/8a25b023c8b82164be64d776315b0239.jpeg)
CVer-三维重建交流群
建了三维重建微信群,已数百人!想要进三维重建群的同学,可以直接加微信号:CVer5555。加的时候备注一下:三维重建+学校+昵称,即可。然后就可以拉你进群了。
论文下载
链接: https:// pan.baidu.com/s/17hBXYy 0QskF3sch2eNVPdg
提取码:cver
强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。
推荐阅读
谷歌刚刚发布Objectron新数据集,可完美检测3D目标,超过4百万幅图像和15K视频剪辑!
综述 | MIT提出视频理解/行为识别:全面调研(2004-2020)
综述 | 基于无人机的目标跟踪的相关滤波器:全面调研
从三个维度加速你的CNN:全面的剪枝框架
DeformCaps:第一个用于目标检测的可变形胶囊网络
Recall Loss:用于不平衡图像分类和语义分割的召回损失
即插即用!Rotate to Attend:卷积Triplet注意力模块
旷视提出MegDetV2:目标检测/实例分割系统
综述 | 基于深度学习的医学图像分割技术:全面调研
ResNet还是DenseNet?即插即用的DS涨点神器来了!
综述 | 基于深度学习的端到端人脸识别技术:全面调研
TBC:共享Thinner Filters,实现更强的CNN!
综述 | 行人检测技术(从手工特征到深度学习):全面调研
超越EfficientNets!无需注意力,也能让你的网络更快更强!
OpenCV 4.5来了!更强的SIFT,改进RANSAC算法,新增目标跟踪网络SiamRPN++
综述 | 基于深度学习的实时语义分割方法:全面调研
涨点神器!南航提出AFF:注意力特征融合
NeurIPS 2020 | 谷歌大脑提出:重新思考预训练和自训练
NeurIPS 2020 | 用于图像复原/恢复的神经稀疏表示
NeurIPS 2020 | aLRPLoss:统一目标检测中的分类和定位的平衡损失函数
CCE:具有互补交叉熵的不平衡图像分类
谷歌地标检索2020 Kaggle 第一名解决方案
ECCV AIM 2020 真实图像超分辨率挑战赛3项冠军解决方案
LVIS 实例分割挑战赛2020的第一名解决方案:好的Box不能保证好的Mask
ETH Zurich提出DPIR:具有Denoiser先验的即插即用图像恢复
综述 | 人脸图像质量评估:全面调研(2004-2020)
ECCV 2020 | NAS-DIP:通过NAS实现DIP(去噪/去雾/超分辨率/修复等)
TIP 2020 | PNEN:金字塔Non-Local增强型网络
综述 | 小样本学习:全面调研(Few-shot)
MiCo:用于半监督域自适应的Mixup联合训练
使用深度神经网络从Noisy Labels中学习:全面调研
剪枝filter?还是剪枝layer?这是个问题
ECCV 2020 | WeightNet:重新探索Weight网络的设计空间
Mask TextSpotter v3:用于场景文字检测和识别的分割Proposal网络
ECCV 2020 | 魔鬼在细节中:车辆重识别的自监督注意力(SAVER)
ECCV 2020 | 53.5 AP!PAA:用于目标检测的IoU预测的概率Anchor分配
ECCV 2020 | 南京理工提出FPT:特征金字塔Transformer
ECCV 2020 | 长尾数据集中多标签分类的分布平衡损失
ECCV 2020 | BMask R-CNN:边界保持的Mask R-CNN
ECCV 2020 | 即插即用!PSConv:将特征金字塔压缩到紧凑的多尺度卷积层中