计算机视觉系列-2-图像分类

给定一张输入图像,图像分类的任务是判断该图像属于哪类, 如果是多任务分类, 可以用于分类该图像包含哪个类别。

深度学习作为机器学习中非常重要的分支, 在图像领域中应用非常广泛.
在图像分类任务中, 通常采用卷积层(CNN)提取特征, 加上全连接层进行分类, 目前最常见的基于CNN的模型有以下几种:

1: LeNet。

卷积网络的第一个成功应用是由Yann LeCun于1990年代开发的。其中最着名的是LeNet架构,用于读取邮政编码,数字等。
这里写图片描述

2: AlexNet。

该推广卷积网络计算机视觉中的第一部作品是AlexNet,由亚历克斯·克里维斯基,伊利亚·萨茨基弗和吉奥夫·欣顿发展。AlexNet在2012年被提交给ImageNet ILSVRC挑战,明显优于第二名(与亚军相比,前5名错误为16%,26%的错误)。该网络与LeNet具有非常相似的体系结构,但是更深入,更大和更具特色的卷积层叠在彼此之上(以前通常只有一个CONV层紧随着一个POOL层)。
这里写图片描述

3: ZFNet。

ILSVRC 2013获奖者是Matthew Zeiler和Rob Fergus的卷积网络。它被称为ZFNet(Zeiler&Fergus Net的缩写)。通过调整架构超参数,特别是通过扩展中间卷积层的大小,使第一层的步幅和过滤器尺寸更小,这是对AlexNet的改进。
这里写图片描述

4: GoogleNet。

ILSVRC 2014获奖者是Szegedy等人的卷积网络。来自Google。其主要贡献是开发一个初始模块,大大减少了网络中的参数数量(4M,与AlexNet的60M相比)。此外,本文使用ConvNet顶部的“平均池”而不是“完全连接”层,从而消除了大量似乎并不重要的参数。
这里写图片描述

5: VGGNet。

VGG是Visual Geometry Group, Department of Engineering Science, University of Oxford的缩写。他们组参加ILSVRC 2014时候组名叫VGG,所以提交的那种网络结构也叫VGG,或者叫VGGNet。VGG和GoogleNet同在2014年参赛,图像分类任务中GoogLeNet第一,VGG第二,它们都是重要的网络结构。

各种VGG的网络结构如下: 它的主要贡献在于表明网络的深度是良好性能的关键组成部分。他们最终的最佳网络包含16个CONV / FC层,并且吸引人的是,具有非常均匀的架构,从始至终只能执行3x3卷积和2x2池。VGGNet的缺点是评估和使用更多的内存和参数(140M)是更昂贵的。这些参数中的大多数都在第一个全连接层中,因此发现可以在不降低性能的情况下去掉一些全连接层.
这里写图片描述

6: ResNet。

Kaiming He等人开发的残留网络 是ILSVRC 2015的获胜者。它具有特殊的跳过连接和批量归一化的大量使用。该架构在网络末端也缺少完全连接的层。ResNets目前是迄今为止最先进的卷积神经网络模型.
这里写图片描述

以上就是最常用的卷积神经网络模型了.
现在github上有以上网络模型的实现, 并有在各种大型图像数据集,如imagenet中的训练的权重可供下载, 然后用于提取特征或微调. 当然自己也可以使用模型重新训练权重, 当然自己也可以写网络模型.深度学习框架中, tensorflow非常主流, 但是它构建模型的代码较为麻烦, 每一层的权重还要指定shape; keras框架是对tensorflow的常用功能进行了封装, 所以写网络结构特别简单; 至于pytorch听说写网络结构也很简单, 暂时没用过, 不多说.

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值