图像分类以及经典的分类模型

最新推荐文章于 2024-06-11 17:42:30 发布

TerenceAmil

最新推荐文章于 2024-06-11 17:42:30 发布

阅读量9.5k

点赞数 4

分类专栏：图像分类文章标签：计算机视觉

本文链接：https://blog.csdn.net/TerenceAmil/article/details/119295862

版权

图像分类

图像分类目的

图像分类实质上就是从给定的类别集合中为图像分配对应标签的任务。
例如：
类别集(caegories)有(bird,dog,pig)三个类别，输入一张图片，分类模型会给图像分配多个标签，每个标签的概率不相同，取最大作为其类别，这就完成了图像分类的任务

图像分类经典的分类模型

AlexNet

AlexNet简介：
2012 年的ImageNet图像识别挑战赛中，AlexNet横空出世，它击败了日本选手的传统方法构建的SVM模型，首次证明了学习到的特征可以超越手工设计的特征，从而一举打破计算机视觉研究的方向
AlexNet网络的特点：

AlexNet包含8层变换，有5层卷积和2层全连接隐藏层，以及1个全连接输出层
AlexNet第一层中的卷积核形状是1111，第二层中的卷积核形状大小减小到55，之后全部采用33。所有的池化层窗口大小为33、步幅为2（最大池化）
AlexNet 将sigmoid激活函数变成了relu激活函数，使计算更简单，网络更容易
通过dropOut来控制全连接层的模型复杂度
引入了大量的图像增强，如翻转、裁剪和颜色变化，从而进一步扩大数据集来缓解过拟合

VGG

2014年，牛津大学计算机视觉组（Visual Geometry Group）和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络：VGGNet，并取得了LISVRC2014比赛分类项目的第二名，主要贡献是使用很小的卷积核（3*3）构建卷积神经网络结构，能够取得较好的识别精度，常用来提取图像特征的有VGG-16和VGG-19
VGG特点：

小卷积核，卷积核全部替换为3*3
小池化核，相比AlexNet的33的池化核，VGG全部为22的池化核；
相比AlexNet层数更深，证明了可以通过不断加深网络来提高性能（1、增加模型的识别效果/2、更深的网络和更小的卷积核带来的隐式正则化结果，需要的收敛的迭代次数较少许多）
使用了Dropout来优化网络结构

VGG块：
在使用tf.keras实现模型时，首先要实现VGG块，它的组成规律是：连续使用多个相同的填充为1、卷积核大小为33的卷积层后接上一个步幅为2、窗口形状为22的最大池化层。卷积层保持输入的高和宽不变，而池化层则对其减半。我们使用vgg_block函数来实现这个基础的VGG块，它可以指定卷积层的数量num_convs和每层的卷积核个数num_filters

最低0.47元/天解锁文章

TerenceAmil

关注

4
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
图像分类以及经典的分类模型

图像分类图像分类目的图像分类实质上就是从给定的类别集合中为图像分配对应标签的任务。例如：类别集(caegories)有(bird,dog,pig)三个类别，输入一张图片，分类模型会给图像分配多个标签，每个标签的概率不相同，取最大作为其类别，这就完成了图像分类的任务图像分类经典的分类模型AlexNetAlexNet简介：2012 年的ImageNet图像识别挑战赛中，AlexNet横空出世，它击败了日本选手的传统方法构建的SVM模型，首次证明了学习到的特征可以超越手工设计的特征，从而一举打破计
复制链接

扫一扫