前言
注意!注意!注意!本文是针对中国科学院计算所山世光教授于2017年1月7日于北京师范大学所做的《深度学习在计算机视觉中的应用与前景》讲座的内容总结梳理。
1 视觉智能的内涵
计算机视觉系统的任务就是像人一样描述摄像机拍摄到的内容。
常见的视觉任务:
- 距离估计
- 目标检测与跟踪
- 物体分割
- 目标识别
- 内容理解
下图所示就是计算机视觉任务中的物体识别的一个例子,如单一物体(图中猫)的识别,或多物体的识别(如图中的狗、猫和鸭子等的识别)。
从2012年到2016年,计算机视觉经历了跨越式发展。在ImageNet ILSRVRC 图像分类上 1000类Top5错误率:26%-> 3.6%。
2 视觉跨越式发展源于深度卷积网络CNN
2.1 计算机视觉的基本任务
- 针对待检测图片,识别出图片中的目标物体对象;
- 对图片内容进行理解,实现图片的语义分割。
处理的流程图如下:
2.2 深度学习的起源——生物神经网络
深度学习的基本原理是“加权投票模型”,它来源与生物神经学系统中的神经元系统的启示。
如图所示,生物学中,一个完成的神经元主要包括轴突和树突两大部分,神经信号的传递主要是轴突的神经末梢受体释放后经过突触间隙被树突的受体捕获,产生电位传递给胞体。胞体将获得的电信号进行汇总给出决策:产生激励信号或者抑制。
最后整个大脑的决策就是所有神经元信号的加权投票决策。
2.3 人工神经网络
正是受到生物神经网络的启发,我们在计算机中构建人工神经网络模型。
2.3.1 单一神经元模型
加权求和(卷积)+ 非线性激活函数
如图所示,我们的输入信号 x1,x2,⋯,xn 可以看作是神经元中来自其他神经元轴突的信号,对应的 wk1,w