全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕。届时,旷视首席科学家孙剑博士将带领团队远赴盛会,助力计算机视觉技术的交流与落地。本文介绍了旷视科技被 ECCV 2018 所接收的一篇论文,该论文提出了一种用于场景理解的统一感知解析网络——UPerNet。
论文名称:《Unified Perceptual Parsing for Scene Understanding》
![](https://i-blog.csdnimg.cn/blog_migrate/d8c5d69e4c8c19f3d9d4c54aa07397f8.jpeg)
- 论文链接:https://arxiv.org/abs/1807.10221
- 代码链接:https://github.com/CSAILVision/unifiedparsing
目录
- 导语
- 背景
- 设计思想
- 定义 UPP
- Broden+
- 指标
- UPerNet
- 背景
- 架构
- 实验
- 结果
- 视觉知识
- 结论
- 参考文献
导语
人类对世界的视觉理解是多层次的,可以轻松分类场景,检测其中的物体,乃至识别物体的部分、纹理和材质。在本文中,旷视科技提出一种称之为统一感知解析(Unified Perceptual Parsing/UPP)的新任务,要求机器视觉系统从一张图像中识别出尽可能多的视觉概念。同时,多任务框架 UPerNet 被提出,训练策略被开发以学习混杂标注(heterogeneous annotations)。旷视科技在 UPP 上对 UPerNet 做了基准测试,结果表明其可有效分割大量的图像概念。这一已训练网络进一步用于发现自然场景中的视觉知识。
背景
人类视觉系统一眼即可从一张图像中提取大量语义信息。人类不仅可以立即解析其中的物体,还能识别细节属性,比如其部分、纹理和材质。如图 1 所示,这是一间起居室,有着很多不同物体,比如一张咖啡桌,一幅画,以及墙面。同时,我们还看到,这是一张四腿咖啡桌,桌面之上有一块桌垫,以及桌子是木质的,沙发表层是针织的。可见,从材质、纹理的视觉感知到物体及其部分的语义感知,我们对这一视觉场景的描述是多层次的。
![](https://i-blog.csdnimg.cn/blog_migrate/0eb1e8f0f7ca20a1d6cf94e4c3cd27a3.jpeg)
图 1:针对 UPP 训练的神经网络可一次性解析不同感知层次的视觉概念