8.18学习笔记
计算机视觉
图像识别的基本框架:测量空间—(特征表示)—特征空间——类别空间
特征表示:设计特征
深度学习:学习特征
早期图像识别方法
用全局的视觉底层特性统计量表示图像
中期图像处理方法
局部特征被转化为视觉关键词,图片被标示成视觉词袋
局部检测子:Harris,DoG,SURF,Harris-Affine,and MSER
局部描述子:SIFT,PCA-SIFT,GLOH,Shape Context,ORB,COGE
传统方法:人工特征提取+分类器
深度学习:模拟人类的视觉系统,从原始信号,做低级抽象,逐渐向高级抽象迭代
深度学习起源与发展
1958 perceptron(神经元)被提出
1998 LeNet应用在MINST完成手写数字识别
2012 AlexNet夺冠ImageNet
卷积神经网络(Convolutional Neural Networks, CNN)是计算机视觉技术最经典的模型结构。卷积、池化、激活函数、批归一化、Dropout丢弃法等。
图像分类:介绍图像分类算法的经典模型结构,包括:LeNet、AlexNet、VGG、GoogLeNet、ResNet,并通过眼疾筛查的案例展示算法的应用。
目标检测:介绍目标检测YOLO-V3算法,并通过林业病虫害检测案例展示YOLO-V3算法的应用。
卷积具体形式:b[i,j] =uνa[i+u,j+v]*w[u,v]
b输出图片,a输入图片(H x W),u为卷积核(kh x kw)
输出图片尺寸:
Hout = H – Kh + 1
Wout = W – Kw + 1
填充(Ph,Pw保证图片前后大小一致)
Ph = (Kh-1)/2, Pw = (kw-1)/2
卷积的特点:
1)图片不同区域共用卷积核
2)卷积操作保留了空间信息
3)卷积核参数的个数与输入图片大小无关
多输入和多输出通道:
输入【 N,Cin,Hin,Win】输出【N,Cin,Hin,Win】N表示图片数
池化:使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出
平均池化 最大池化
- 数据微小变化时保证输出不变
- 特征图变小,减小神经元的个数,节省存储空间提高效率,减少过拟合
池化参数(没有学习参数,通道数不变独立池化)
池化窗口大小Pool_size [kh,kw]
池化窗口滑动步幅Pool_stride[stride_h,stride_w]
图片填充:padding = [ph,pw] 常见设置参数 2 2 2 2 0 0 使长宽减半