计算机视觉基础知识(十六)--图像识别

A xell

已于 2024-03-03 09:35:09 修改

阅读量3.1k

点赞数 63

分类专栏：图像识别文章标签：计算机视觉人工智能

于 2024-03-02 22:05:08 首次发布

本文链接：https://blog.csdn.net/newsymme/article/details/136325149

版权

图像识别专栏收录该内容

17 篇文章 12 订阅

订阅专栏

本文详细阐述了图像识别技术在信息时代的重要性，介绍了其发展历程，包括计算机图像识别的过程、模式识别的概念及其在图像识别中的作用。重点讲解了卷积神经网络（如VGG、Inception、ResNet）的发展，涉及特征提取、分类与检测应用，以及迁移学习在工程实践中的应用策略。

摘要由CSDN通过智能技术生成

图像识别

信息时代的一门重要技术;
目的是让计算机代替人类处理大量的物理信息;
随着计算机技术的发展,人类对图像识别技术的认识越来越深刻;
图像识别技术利用计算机对图像进行处理\分析\理解,识别不同模式的目标和对象;
过程分为信息的获取\预处理\特征抽取和选择\分类器设计\分类决策;

模式识别

是人工智能和信息科学的重要组成部分;
指对表示事物或现象的不同形式的信息做分析和处理,得到对事物或现象描述\辨认和分类的过程;
计算机图像识别技术是模拟人类的图像识别过程;
在图像识别的过程中进行模式识别是必不可少的;
模式识别是人类的一项基本智能;
随着计算机的发展和人工智能的兴起;
人类本身的模式识别满足不了生活的需要;
希望用计算机代替或扩展人类的部分脑力劳动,于是产生了计算机模式识别;
模式识别就是对数据进行分类,与数学紧密结合,所用思想大部分是概率与统计;

图像识别的过程

信息的获取;
预处理;
特征抽取和选择;
分类器设计;

信息的获取

通过传感器,将光或声音等信息转化为电信号;
通过某种方法将其转变为机器能够认识的信息;

预处理

指图像处理中的去噪\平滑\变换等操作;
加强图像的重要特征;
图像增强;

特征抽取和选择

模式识别中,需要进行特征抽取和选择;
是图像识别过程中非常关键的技术;

分类器设计

通过训练得到一种识别规则;
通过该识别规则得到一种特征分类;
使得图像识别技术可以得到高德识别率;
分类决策时在特征空间中对被识别对象进行分类;
从而更好的识别所研究的对象;

图像识别的应用

图像分类
网络搜索
以图搜图
智能家居
拍照识别/扫描识别
农林:森林调查;
金融
安防
医疗
娱乐监管

机器学习方法的发展

分类与检测

分类是识别图片内容,并进行归类的过程;
检测是知道了图片的内容,在图片中将其框选出来的过程;
分类与检测在很多领域广泛应用;

分类与检测的应用领域

人脸识别
行人检测
智能视频分析
行人跟踪
交通场景物体识别
车辆计数
逆行检测
车牌检测与识别;
基于内容的图像检索
相册自动归类

常见的卷积神经网络

VGG

VGG的经典之处在首次将深度学习做的非常"深",达到16-19层;
同时使用了非常小的卷积核(3x3);

VGG16

一张原始图片,resize到(224,224,3);
conv1两次[3,3]卷积,输出特征层64,形状为(224,224,64),2x2最大池化,输出net(112,112,64);
conv2两次[3,3]卷积,输出特征层128,形状为(112,112,128),2x2最大池化,输出net(56,56,128);
conv3三次[3,3]卷积,输出特征层256,形状为(56,56,256),2x2最大池化,输出net(28,28,256);
conv3三次[3,3]卷积,输出特征层256,形状为(28,28,512),2x2最大池化,输出net(14,14,512);
conv3三次[3,3]卷积,输出特征层256,形状为(14,14,512),2x2最大池化,输出net(7,7,512);
卷积模拟全链接层,效果等同,输出net(1,1,4096),进行两次;
卷积模拟全链接层,效果等同,输出net(1,1,1000);

卷积层与全链接层的区别

卷积层为局部链接;
全链接层使用图像的全局信息;
最大的局部等于全局;
说明全链接层使用卷积层替代可行;

卷积层代替全链接层

卷积层和全链接层都进行了一个点乘操作;
他们的函数形式相同;
全链接层可以转化为对应的卷积层;
只需要把卷积核的尺寸变为和输入的feature map大小一致,为(h,w);
这样卷积和全链接层的参数一样多;

1X1卷积的作用

实现特征通道的升维和降维;
控制卷积核的数量,从而控制通道数;
池化层只改变尺寸,无法改变通道数;

Residual net(残差网络)

将靠前若干层的某一层数输出直接跳过多层引入到后面数据层的输入;

残差神经单元

某段神经网络的输入为x;
期望输出为H(x);
如果我们直接将输入x传到输出作为初始结果;
需要学习的目标为: $F(x)=H(x)-x$ ;
这就是一个残差神经单元;
相当于改变了学习目标;
不再是学习一个完整的输出 $H(x)$ ;
而是学习输出和输入的差别: $H(x)-x$ ,即残差;

直连卷积神经网络与ResNet的区别

ResNet有很多旁路的支线将输入直连到后面的层;
后面的层可以直接学习残差;
这种结构也被称为shortcut或skip connections;
传统卷积层或全连接层在信息传递时会存在信息丢失\损耗等问题;
ResNet直接将输入信息绕道传到输出,保护信息的完整性;
整个网络只学习输入\输出差别的那部分,简化了学习目标和难度;

ResNet50

ResNet50有两个基本的模块;
分别是Conv Block和Identity Block;
Conv Block的输入和输出维度不一样,不能连续串联;
其作用是改变网络的维度;
Identity Block输入维度和输出维度相同,可串联,用于加深网络;

BatchNormalization

所有输出保证在0~1之间;
所有输出数据的均值接近0;
标准差接近1的正态分布;
这样能够使数据落入激活函数的敏感区,避免梯度消失,加快收敛;
加快模型收敛速度,并具有一定的泛化能力;
可减少dropout的使用;

$\widehat{x}^{(k)}=\frac{x^{(k)}-E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}}$

卷积神经网络迁移学习-fine tuning

实践中,由于数据集不够大,很少有人从头开始训练网络;
常见的做法是使用预训练的网络;
对预训练的网络来重新fine-tuning;
或者使用预训练网络作为特征提取器;
迁移学习就是将训练好的模型,通过简单的调整快速移动到另一个数据集上;
随模型层数及复杂度的增加,错误率不断降低;
训练复杂的神经网络需要非常多的标注信息;
也需要长至几天甚至几周的训练时间;
为了解决上述问题可以使用迁移学习;

常见的两类迁移学习场景

卷积网络当做特征提取器;
Fine-tuning卷积网络;

卷积网络当做特征提取器

使用在ImageNet上预训练的网络;
去掉最后的全连接层;
剩余部分当做特征提取器;
这样提取的特征称为CNN节点;
可以使用线性分类器来分类图像;

Fine-tuning卷积网络

替换网络的输入层;
使用新的数据来训练;
可以选择fine-tune全部曾或部分层;
通常前面的层提取图像的通用特征(generic features);
通用特征对许多任务都有用;
后面的层提取与特定类别有关的特征;
Fine-tuning常常只需要微调后面的层;

Inception

Inception网络是CNN发展史上的一个重要里程碑;
Inception出现之前的CNN仅是堆叠卷积层,网络越来越深;
以期得到更好的性能;

多层卷积网络深度存在的问题

图像中突出部分的大小差别很大;
由于信息位置的巨大差异,卷积操作选择合适大小的卷积核比较困难;
信息分布更全局的图像偏好较大的卷积核;
信息分布较局部的图像偏好较小的卷积核;
非常深的网络更容易过拟合;
将梯度更新传到整个网络是困难的;
简单堆叠卷积层非常消耗计算资源;

Inception module解决方案

鉴于多层卷积神经网络具有的以上问题;
为什么不在同一层上运行多个尺寸的滤波器呢?
那么网络本质上变得宽一些,而不是更深一些;

Inception模块

使用三个不同尺寸的滤波器:1X1,3x3,5x5,以及最大池化;
对输入执行卷积操作;
所有子层的输出最后被级联起来;
传送至下一个模块;
一方面增加了网络的宽度;
另一方面增加了网络的尺度适应性;

降维Inception模块

如前,深度神经网络耗费大量资源;
为了降低算力成本,在3x3,5x5卷积层之前添加额外的1x1卷积层;
以此来限制输入通道的数量;
尽管添加额外的卷积操作反直觉;
但是1x1的卷积较5x5的卷积廉价许多;
输入通道数量的减少有利于降低计算成本;

1x1卷积降低运算成本比较

Inception V1

Googlenet出品
采用了Inception 模块化结构;
共计9个模块,22层;
避免梯度消失,增加2个辅助softmax;
用于前向传导梯度;

Inception V2

输入增加了BatchNormalization;
用两个连续的3x3卷积层(stride=1)组成的小网络代替单个5x5卷积;
5x5卷积核参数是3x3卷积核参数的25/9=2.78倍;

此外,作者将 nxn的卷积核尺寸分解为1xn和nx1的两个卷积;

前面三个原则用来构建三种不同类型的Inception模块;

type	patch size/stride	input size
conv	3x3/2	299x299x3
conv	3x3/1	149x149x32
conv padded	3x3/1	147x147x32
pool	3x3/2	147x147x64
conv	3x3/1	73x73x64
conv	3x3/2	71x71x80
conv	3x3/1	35x35x192
3 X Inception		35x35x288
5 X Inception		17x17x768
2 x Inception		8x8x1280
pool	8x8	8x8x2048
linear	logits	1x1x2048
softmax	classifier	1x1x1000

Inception V3

整合了InceptionV2的所有升级,使用了7X7卷积

type	patch size/stride	input size
conv	3x3/2	299x299x3
conv	3x3/1	149x149x32
conv	3x3/1	147x147x32
pool	3x3/2	147x147x64
conv	3x3/1	73x73x64
conv	3x3/2	71x71x80
conv	3x3/1	35x35x192
3 X Inception		35x35x288
3 X Inception		17x17x768
3 x Inception		8x8x1280
pool	8x8	8x8x2048
linear	logits	1x1x2048
softmax	classifier	1x1x1000