图像分类以及经典的分类模型

图像分类

图像分类目的

图像分类实质上就是从给定的类别集合中为图像分配对应标签的任务。
例如:
类别集(caegories)有(bird,dog,pig)三个类别,输入一张图片,分类模型会给图像分配多个标签,每个标签的概率不相同,取最大作为其类别,这就完成了图像分类的任务

图像分类经典的分类模型

AlexNet

AlexNet简介:
2012 年的ImageNet图像识别挑战赛中,AlexNet横空出世,它击败了日本选手的传统方法构建的SVM模型,首次证明了学习到的特征可以超越手工设计的特征,从而一举打破计算机视觉研究的方向
AlexNet网络的特点:

  • AlexNet包含8层变换,有5层卷积和2层全连接隐藏层,以及1个全连接输出层
  • AlexNet第一层中的卷积核形状是1111,第二层中的卷积核形状大小减小到55,之后全部采用33。所有的池化层窗口大小为33、步幅为2(最大池化)
  • AlexNet 将sigmoid激活函数变成了relu激活函数,使计算更简单,网络更容易
  • 通过dropOut来控制全连接层的模型复杂度
  • 引入了大量的图像增强,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合

VGG

2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络:VGGNet,并取得了LISVRC2014比赛分类项目的第二名,主要贡献是使用很小的卷积核(3*3)构建卷积神经网络结构,能够取得较好的识别精度,常用来提取图像特征的有VGG-16和VGG-19
VGG特点:

  • 小卷积核,卷积核全部替换为3*3
  • 小池化核,相比AlexNet的33的池化核,VGG全部为22的池化核;
  • 相比AlexNet层数更深,证明了可以通过不断加深网络来提高性能(1、增加模型的识别效果/2、更深的网络和更小的卷积核带来的隐式正则化结果,需要的收敛的迭代次数较少许多)
  • 使用了Dropout来优化网络结构

VGG块:
在使用tf.keras实现模型时,首先要实现VGG块,它的组成规律是:连续使用多个相同的填充为1、卷积核大小为33的卷积层后接上一个步幅为2、窗口形状为22的最大池化层。卷积层保持输入的高和宽不变,而池化层则对其减半。我们使用vgg_block函数来实现这个基础的VGG块,它可以指定卷积层的数量num_convs和每层的卷积核个数num_filters


                
  • 4
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值