计算机视觉系列-2-图像分类

最新推荐文章于 2024-07-25 19:51:53 发布

红色工程师qk

最新推荐文章于 2024-07-25 19:51:53 发布

阅读量2.4k

点赞数 2

分类专栏：计算机视觉系列文章标签：图像分类图像识别深度学习 resnet vgg

计算机视觉系列专栏收录该内容

1 篇文章 0 订阅

订阅专栏

给定一张输入图像，图像分类的任务是判断该图像属于哪类, 如果是多任务分类, 可以用于分类该图像包含哪个类别。

深度学习作为机器学习中非常重要的分支, 在图像领域中应用非常广泛.
在图像分类任务中, 通常采用卷积层(CNN)提取特征, 加上全连接层进行分类, 目前最常见的基于CNN的模型有以下几种:

1: LeNet。

卷积网络的第一个成功应用是由Yann LeCun于1990年代开发的。其中最着名的是LeNet架构，用于读取邮政编码，数字等。
这里写图片描述

2: AlexNet。

该推广卷积网络计算机视觉中的第一部作品是AlexNet，由亚历克斯·克里维斯基，伊利亚·萨茨基弗和吉奥夫·欣顿发展。AlexNet在2012年被提交给ImageNet ILSVRC挑战，明显优于第二名（与亚军相比，前5名错误为16％，26％的错误）。该网络与LeNet具有非常相似的体系结构，但是更深入，更大和更具特色的卷积层叠在彼此之上（以前通常只有一个CONV层紧随着一个POOL层）。
这里写图片描述

3: ZFNet。

ILSVRC 2013获奖者是Matthew Zeiler和Rob Fergus的卷积网络。它被称为ZFNet（Zeiler＆Fergus Net的缩写）。通过调整架构超参数，特别是通过扩展中间卷积层的大小，使第一层的步幅和过滤器尺寸更小，这是对AlexNet的改进。
这里写图片描述

4: GoogleNet。

ILSVRC 2014获奖者是Szegedy等人的卷积网络。来自Google。其主要贡献是开发一个初始模块，大大减少了网络中的参数数量（4M，与AlexNet的60M相比）。此外，本文使用ConvNet顶部的“平均池”而不是“完全连接”层，从而消除了大量似乎并不重要的参数。
这里写图片描述

5: VGGNet。

VGG是Visual Geometry Group, Department of Engineering Science, University of Oxford的缩写。他们组参加ILSVRC 2014时候组名叫VGG，所以提交的那种网络结构也叫VGG，或者叫VGGNet。VGG和GoogleNet同在2014年参赛，图像分类任务中GoogLeNet第一，VGG第二，它们都是重要的网络结构。

各种VGG的网络结构如下：它的主要贡献在于表明网络的深度是良好性能的关键组成部分。他们最终的最佳网络包含16个CONV / FC层，并且吸引人的是，具有非常均匀的架构，从始至终只能执行3x3卷积和2x2池。VGGNet的缺点是评估和使用更多的内存和参数（140M）是更昂贵的。这些参数中的大多数都在第一个全连接层中，因此发现可以在不降低性能的情况下去掉一些全连接层.
这里写图片描述

6: ResNet。

Kaiming He等人开发的残留网络是ILSVRC 2015的获胜者。它具有特殊的跳过连接和批量归一化的大量使用。该架构在网络末端也缺少完全连接的层。ResNets目前是迄今为止最先进的卷积神经网络模型.
这里写图片描述

以上就是最常用的卷积神经网络模型了.
现在github上有以上网络模型的实现, 并有在各种大型图像数据集,如imagenet中的训练的权重可供下载, 然后用于提取特征或微调. 当然自己也可以使用模型重新训练权重, 当然自己也可以写网络模型.深度学习框架中, tensorflow非常主流, 但是它构建模型的代码较为麻烦, 每一层的权重还要指定shape; keras框架是对tensorflow的常用功能进行了封装, 所以写网络结构特别简单; 至于pytorch听说写网络结构也很简单, 暂时没用过, 不多说.

红色工程师qk

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉系列-2-图像分类

给定一张输入图像，图像分类的任务是判断该图像属于哪类, 如果是多任务分类, 可以用于分类该图像包含哪个类别。深度学习作为机器学习中非常重要的分支, 在图像领域中应用非常广泛. 在图像分类任务中, 通常采用卷积层(CNN)提取特征, 加上全连接层进行分类, 目前最常见的基于CNN的模型有以下几种:1: LeNet。卷积网络的第一个成功应用是由Yann LeCun于1990年代开...
复制链接

扫一扫

专栏目录