图像识别的经典课题
计算机视觉
- 核心目标:让计算机“看懂”图像内容
- 问题挑战:
- 图像包含的信息复杂,充满着简单(颜色、线条、形状等)和复杂(姿势、场景、物体分布等)的元素,难以使用单一知识体系来概括。
- 图像对于计算机来说,只是独立的像素集合,计算机无法归纳像素之间的关联关系
图像识别课题
卷积神经网络原理
前深度学习时代
- 传统机器学习方法
- 图像预处理:调整大小、调整明暗度、图像降噪、图像增强等
- 特征提取:手工或利用图像处理算子(如,SIFT、HoG、Sobel等)
- 归纳识别:SVM、人工神经网络
- 局限
- 传统机器学习算法只能得出输入特征与输出标签之间的映射关系
- 特征选取强烈依赖人类的先验经验和大量实践,可移植程度低
- 大量特征无法由人类归纳总结
卷积操作(Convolution)
- 卷积操作简单来说,就是对于图片中的每一个像素点,计算它的邻域像素和滤波器矩阵(卷积核)的对应位置元素的乘积,然后将所有乘积累加,作为该像素位置的输出值,如下图所示。
- 卷积操作的动图:http://deeplearning.stanford.edu/wiki/index.php/Feature_extraction_using_convolution
- 在图像处理中,通常会用到一些经典的卷积滤波器,如低通滤波器、高通滤波器、高斯滤波器,这些滤波器会产生不容的效果,如下图所示。上排三个依次为:原图、低通滤波器(Low Pass Filter)、高斯滤波器(Gaussian Filter),下三排依次为:锐化滤波器(Sharpeness Filter)、边缘检测(Edge Detection)、浮雕滤波器(Embossing Filter。
- 在线实验,可以自定义卷积核参数测试:https://graphics.stanford.edu/courses/cs178/applets/convolution.html
池化(Pooling)
- 池化操作
- 一般有最大池化(max pooling)和平均池化(average pooling)两种操作
- 通常采用 2×2 的窗口大小,步长为2,处理完的图像长和宽都是