【计算机科学】【2017.11】计算机视觉深度学习的几何与不确定特性

在这里插入图片描述

本文为英国剑桥大学(作者:AlexGuy Kendall)的博士论文,共208页。

深度学习和卷积神经网络已经成为计算机视觉的主要工具,这些技术擅长于使用监督学习从数据中学习复杂的表示。特别地,在一定约束条件下,图像识别模型的性能已经超越了人类的能力。然而,计算机视觉的目的是要设计出能够智能观察的机器。这需要从图像和视频中提取比识别更丰富的信息模型。一般来说,将这些深度学习模型从识别应用到计算机视觉中的其它问题更具挑战性。

本文针对计算机视觉中的一些核心问题进行研究:场景理解、摄像机姿态估计、立体视觉和视频语义分割,并提出了端到端的深度学习体系架构。我们的模型优于传统方法,并在许多具有挑战性的计算机视觉基础上推进了最新技术。然而,这些端到端的模型通常无法解释,并且需要大量的训练数据。

为了解决这个问题,我们提出了两种思想:(一)我们不需要从零开始学习一切,因为我们已经对物理世界了解很多;(二)我们不需要从数据中了解一切,我们的模型应该需要知道他们目前所不知道的。本文利用几何学和不确定性的概念来探讨这些思想。特别地,我们展示了如何通过利用问题的底层几何结构来改进端到端的深度学习模型。我们明确了诸如利用核面几何进行无监督学习的建模概念,从而提高了性能。其次,我们引入概率建模和贝叶斯深度学习的思想来理解计算机视觉模型中的不确定性。我们展示了如何量化不同类型的不确定性,以提高实际应用中的安全性。

Deep learning and convolutional neural networks have become thedominant tool for computer vision. These techniques excel at learning complicatedrepresentations from data using supervised learning. In particular, imagerecognition models now out-perform human baselines under constrained settings.However, the science of computer vision aims to build machines which can see.This requires models which can extract richer information than recognition,from images and video. In general, applying these deep learning models fromrecognition to other problems in computer vision is signifcantly morechallenging. This thesis presents end-to-end deep learning architectures for anumber of core computer vision problems; scene understanding, camera poseestimation, stereo vision and video semantic segmentation. Our modelsoutperform traditional approaches and advance state-ofthe-art on a number ofchallenging computer vision benchmarks. However, these end-to-end models areoften not interpretable and require enormous quantities of training data. Toaddress this, we make two observations: (i) we do not need to learn everythingfrom scratch, we know a lot about the physical world, and (ii) we cannot knoweverything from data, our models should be aware of what they do not know. Thisthesis explores these ideas using concepts from geometry and uncertainty.Specifcally, we show how to improve end-to-end deep learning models byleveraging the underlying geometry of the problem. We explicitly model conceptssuch as epipolar geometry to learn with unsupervised learning, which improvesperformance. Secondly, we introduce ideas from probabilistic modeling andBayesian deep learning to understand uncertainty in computer vision models. Weshow how to quantify different types of uncertainty, improving safety for realworld applications.

1 引言
2 场景理解
3 定位
4 立体视觉
5 运动
6 结论

下载英文原文地址:

http://page5.dfpan.com/fs/clc7j2d21f29e1690a1/

更多精彩文章请关注微信号:在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值