计算机视觉知识树,计算机视觉发展

1. 概览

1.1 定义及历史

赋予机器自然视觉能力的学科,给机器装上眼睛(成像设备)和大脑(算法);

计算机视觉是一门综合性的学科,涵盖信号处理,神经认知学,应用数学和统计学等;

cce481afb55f

经历了4个主要阶段,研究内容大体分为物体视觉和空间视觉

cce481afb55f

cce481afb55f

1.2 计算机视觉 vs人工智能

cce481afb55f

人工智能范畴

cce481afb55f

计算机视觉知识树

1.3 整体概览

cce481afb55f

2. 计算机视觉进展

2.1 图像分类

2.1.1 发展历程

cce481afb55f

网络越深,精度越高

cce481afb55f

轻量化网络,ShuffleNet-V2,准确性和效率均最好

2.1.2 挑战

人识别一个物体特别简单,但是计算机处理起来却不是件容易的事,需要应对多方面的因素变化

遮挡

视角

光照

尺度

变形

背景干扰

cce481afb55f

2.1.3 典型框架

深度学习成为主流之后,网络设计的思路:网络加深、网络加宽,为了提高效率,网络也向轻量化发展。

cce481afb55f

2.2 物体检测

2.2.1 发展历程

cce481afb55f

cce481afb55f

2.2.2 挑战

平衡两方面因素

精度

速度

cce481afb55f

cce481afb55f

2.2.3 典型框架

Two-stage:1.提取候选框;2.对候选框提取特征并分类;3.精度高但速度慢

cce481afb55f

One-stage:端到端框架,精度低但速度快

cce481afb55f

2.2.4 发展趋势

物体检测的发展趋势:Anchor-Free、关系推理、弱监督检测和轻量化

cce481afb55f

2.3 图像分割

2.3.1 定义

cce481afb55f

cce481afb55f

语义分割

cce481afb55f

实例分割

cce481afb55f

3D分割

cce481afb55f

视频分割

2.3.2 分割质量评价指标

Pixel Accuracy,标记正确的像素占总像素的比例

cce481afb55f

mIoU(Mean Intersection over Union),平均交并比,各类真实值和预测值的交集和并集之比的均值

cce481afb55f

2.3.3 发展历程

cce481afb55f

2.3.4 典型算法

cce481afb55f

2.3.5 挑战

难点A:如何表示高度抽象的语义信息

cce481afb55f

cce481afb55f

难点B:场景复杂,存在遮挡,阴影等因素

cce481afb55f

cce481afb55f

难点C:边缘和微小物体等细节部分易丢失

cce481afb55f

cce481afb55f

2.3.6 数据集

通用场景分割

1.PASCAL VOC分割数据集,20类, 2913张图片(VOC 2012)。

2.MS COCO分割数据集,80类, 122218张图片(COCO instances 2017))

道路场景分割数据集

Cityscapes,

Mapillary Vistas,

ApolloScape

BDD100K等

2.3 视频分析

2.3.1 发展历程

cce481afb55f

双流网络:融合空间与时序变化的信息进行分析

cce481afb55f

利用人体骨架/关节点/姿态信息预测人体行为

cce481afb55f

cce481afb55f

STN利用稀疏采样处理长视频分析,其他改进还有TRN和ECO等

cce481afb55f

3D卷积网络直接抽取信息,2D CNN的推广,后续改进有I3D,P3D,Non-local 3D等

cce481afb55f

image.png

cce481afb55f

2.3.2 典型算法

C3D: Tran等人提出,将3x3卷积扩展到3x3x3卷积,2x2 Pooling扩展到2x2x2 Pooling。

cce481afb55f

cce481afb55f

I3D: Carreira等人提出,把Two-Stream结构中的2D卷积扩展为3D卷积。

cce481afb55f

P3D: Z. Qiu等人提出,用一个1x3x3的空间方向卷积和一个3x1x1的时间方向卷积近似原3x3x3卷积。

cce481afb55f

Two Stream: Simonyan等人提出,采用两个卷积分支,一个分支提取RGB图像中的空间信息,另一个分支处理光流运动场,用于提取帧之间的运动信息。

cce481afb55f

TSN/TRN/ECO: L. Wang等人提出。这三个模型研究视频特征在时间上的传播关系,从而对视频进行稀疏采样,在避免冗余信息的同时可以处理长距离依赖。

cce481afb55f

cce481afb55f

image.png

SlowFastNet: Feichtenhofer等人提出,SlowFast网络中Slow分支用于捕获语义信息,而Fast分支用于捕获运动信息,这和Two-Stream网络的思路类似。

cce481afb55f

2.3.3 挑战

难点1:空间信息和时间信息的融合。如何将每帧图片中的空间信息和帧序列间的时间信息有效融合,提取出动作意图,目前还没有明确理论。

cce481afb55f

难点2:动作边界不明确。现实中一件事情往往没有明确的开始点和结束点,从而导致目前行为识别和检测的mAP偏低。

cce481afb55f

cce481afb55f

难点3:时间跨度大。同一个动作,可能持续几秒钟,也可能持续几十秒,从而使得提取Proposal的变得异常艰难。

cce481afb55f

cce481afb55f

2.3.4 相关数据集

cce481afb55f

cce481afb55f

cce481afb55f

2.4 SLAM

2.4.1 知识树

cce481afb55f

2.4.2 经典算法

cce481afb55f

2.4.3 发展趋势

多传感器融合(GPS/IMU/Camera/Lidar/Radar)

cce481afb55f

深度学习替换SLAM中的模块(特征提取和匹配/无监督深度学习的单目视觉里程计)

cce481afb55f

cce481afb55f

语义SLAM(半稠密语义建图/稠密3D语义建图)

cce481afb55f

cce481afb55f

端到端SLAM(基于增强学习的自主导航/感知建图和规划)

cce481afb55f

cce481afb55f

2.5 人机交互

2.5.1 定义

视觉感知是人机交互的一个重要手段,如人脸、眼球、手势、体控等多种探测与交互的应用。在这些应用中,视觉产品扮演着计算机输入设备的作用。

cce481afb55f

人脸交互

表情识别/眼球追踪/头部姿态

cce481afb55f

手势交互

cce481afb55f

体控交互

2.5.2 面部表情

表情识别发展

方法从手工特征到深度神经网络

数据从粗分类到精细表情分类

cce481afb55f

识别流程

cce481afb55f

应用场景

cce481afb55f

智能监控

cce481afb55f

智能机器人

cce481afb55f

虚拟现实

2.5.2 手势

应用场景

cce481afb55f

cce481afb55f

cce481afb55f

cce481afb55f

cce481afb55f

优劣势

优势

识别人的自然手势

可以脱离实体接触,实现远距离控制

交互动作更加丰富和自然

劣势

成本相对高

识别手势有限

技术实现

Depth Camera

RGB-D Camera

Monocular RGB

2.5.3 人体

类型

cce481afb55f

2D Human Pose

cce481afb55f

3D Human Pose

应用场景

cce481afb55f

体感游戏

cce481afb55f

辅助裁判

cce481afb55f

自动驾驶

优劣势

优势

技术成熟

落地应用越来越多

交互动作更加丰富和自然

劣势

使用场景要覆盖全身,遮挡条件下效果不好

应用环境要求较高

2.6 OCR & STR

OCR 光学字符识别,起源于上世纪50年代,如今技术成熟。STR自然场景文本识别,尽管有深度学习加成,仍是热点与难点问题

2.6.1 发展历程

cce481afb55f

2.6.2 定义

cce481afb55f

文本检测

SWT:基于笔画特征

MSER:基于稳定区域

FCN+RNN:基于分割的方式

SSD-based:基于深度检测的方式

文本识别

字符识别:HOG、SIFT特征

单词识别:CNN分类

文本行识别:CNN + LSTM + CTC

2.6.3 挑战与难点

cce481afb55f

多种语言文本混合

文本方向多样性

文字变形(透视、仿射变换)、残缺、模糊等现象

自然场景图像的背景极其多样

光照变化、遮挡问题

2.6.4 发展趋势

cce481afb55f

2.7 机器学习

2.7.1 定义

机器学习为计算机视觉提供了理论与方法基石,同时,新兴方向已经正在影响并有可能引领视觉应用的未来

对抗生成学习 GANs

强化学习

Automl

cce481afb55f

2.7.2 生成对抗网络

深度卷积网络与博弈论的结合诞生了GANs

目标是模拟图像的高维分布,以生成“真实”的图像,

cce481afb55f

与图像处理 (超分、inpainting等)和合成等问题结合,提升视觉效果

cce481afb55f

图像生成方面,从早期的Deep dream,到去年底的高清人脸生成

cce481afb55f

cce481afb55f

数据增广与增强深度网络对噪声样本鲁棒

cce481afb55f

2.7.3 强化学习

研究学习器在与环境的交互过程中,如何学习到一种行为策略,以最大化得到的累积奖赏

cce481afb55f

面向特定任务的机械控制,路径规划

cce481afb55f

自主搜索更优的深度网络结构

cce481afb55f

策略游戏AI,媲美或超越人类顶级高手

cce481afb55f

2.7.4 Automl

自动化实现高性能的模型构建和超参数调整

目标是降低模型设计的难度,但需要大量的算力来支撑

前沿课题,发展迅速,需要紧密观察

在部分任务性能表现上,已经跟上甚至超越当前最优人工设计的深度网络

cce481afb55f

在检测任务上的测评表现(NAS为automl模型)

cce481afb55f

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值