ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet，优化场景理解

最新推荐文章于 2024-06-11 22:07:33 发布

weixin_30773135

最新推荐文章于 2024-06-11 22:07:33 发布

阅读量1.1k

点赞数

文章标签：人工智能数据库

原文链接：http://www.cnblogs.com/alan-blog-TsingHua/p/9736167.html

版权

全球计算机视觉三大顶会之一 ECCV 2018（European Conference on Computer Vision）即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕。届时，旷视首席科学家孙剑博士将带领团队远赴盛会，助力计算机视觉技术的交流与落地。本文介绍了旷视科技被 ECCV 2018 所接收的一篇论文，该论文提出了一种用于场景理解的统一感知解析网络——UPerNet。

论文名称：《Unified Perceptual Parsing for Scene Understanding》

论文链接：https://arxiv.org/abs/1807.10221
代码链接：https://github.com/CSAILVision/unifiedparsing

导语
背景
设计思想
定义 UPP
Broden+
指标
UPerNet
背景
架构
实验
结果
视觉知识
结论
参考文献

导语

人类对世界的视觉理解是多层次的，可以轻松分类场景，检测其中的物体，乃至识别物体的部分、纹理和材质。在本文中，旷视科技提出一种称之为统一感知解析（Unified Perceptual Parsing/UPP）的新任务，要求机器视觉系统从一张图像中识别出尽可能多的视觉概念。同时，多任务框架 UPerNet 被提出，训练策略被开发以学习混杂标注（heterogeneous annotations）。旷视科技在 UPP 上对 UPerNet 做了基准测试，结果表明其可有效分割大量的图像概念。这一已训练网络进一步用于发现自然场景中的视觉知识。

背景

人类视觉系统一眼即可从一张图像中提取大量语义信息。人类不仅可以立即解析其中的物体，还能识别细节属性，比如其部分、纹理和材质。如图 1 所示，这是一间起居室，有着很多不同物体，比如一张咖啡桌，一幅画，以及墙面。同时，我们还看到，这是一张四腿咖啡桌，桌面之上有一块桌垫，以及桌子是木质的，沙发表层是针织的。可见，从材质、纹理的视觉感知到物体及其部分的语义感知，我们对这一视觉场景的描述是多层次的。

图 1：针对 UPP 训练的神经网络可一次性解析不同感知层次的视觉概念࿰

最低0.47元/天解锁文章

weixin_30773135

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
ECCV 2018 | 旷视科技提出统一感知解析网络UPerNet，优化场景理解

全球计算机视觉三大顶会之一 ECCV 2018（European Conference on Computer Vision）即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕。届时，旷视首席科学家孙剑博士将带领团队远赴盛会，助力计算机视觉技术的交流与落地。本文介绍了旷视科技被 ECCV 2018 所接收的一篇论文，该论文提出了一种用于场景理解的统一感知解析网络——UPerNet。论文...
复制链接

扫一扫