深度学习中的视觉表示 本文主要介绍关于计算机视觉领域的深度学习和视觉信息表示。首先介绍视觉信息是什么,在产业界的很多应用中,通常需要从图像或者视频的输入出发,解决诸如人脸检测/识别,姿态/行为识别,或者物体检测/识别,自动驾驶/控制,场景几何特征分析等问题。这些问题有一个共同点,就是需要在某种程度上理解图像内容,不仅只是存储传输,或者显示图像。那么就需要把图像或者视频转化为更方便获取它的内容的某种表示形式,然后再从这种表示形式出发来解决某中具体应用的问题。 更具体的就是,图像或者视频在计算机中存储的形式是每个像素点的明暗程度或者颜色,
上图是经典的lena图像(Lena的图片是《花花公子》拍摄的照片,几十年来一直是图像处理的测试标准),上图中红色方框标识区域的内容是帽子的一部分边界,用每个像素的明暗程度来表示就是左边的数字,那么这种原始的表示形式离图像的内容是非常遥远的,很难想象如何设计一个算法直接数字中理解帽子是什么,所以就需要先把它转化为更高级的,更贴近图像内容的识别表示