8月22日计算机视觉理论学习笔记——常见 CNN


前言

本文为8月22日计算机视觉理论学习笔记,分为两个章节:

  • 常见 CNN;
  • CNN 设计准则。

一、常见 CNN

1、AlexNet

  • 5个卷积层 + 3个全连接层;
  • 60M 个参数 + 650K 个神经元;
  • 新技术:
    • ReLu;
    • Max pooling;
    • Dropout。

1

输入层224×224×3
卷积层196×11×11×3⇒ LRN ⇒ MP ⇒ ReLu
卷积层2256×5×5×48⇒ LRN ⇒ MP ⇒ ReLu
卷积层3384×3×3×256⇒ ReLu
卷积层4384×3×3×192⇒ MP ⇒ ReLu
卷积层5256×3×3×192⇒ ReLu
全连接层14096⇒ ReLu
全连接层24096⇒ ReLu
全连接层31000⇒ ReLu
Softmax层1000
Loss4096⇒ ReLu
  • 1×1 卷积: 实现同一个像素点上的各个通道的值的线性组合。作用有:
    • 跨通道的交互和信息整合;
    • 卷积核通道数的降维和升维。

2

2、VGG

  • 核分解:7×7核 ⇒ 3个 3×3核(ReLu 连接),参数数量: 49 c 2 49c^2 49c2 27 c 2 27c^2 27c2
  • 减少参数,降低计算,增加深度。

3

3、GoogLeNet

(1)、Inception V1

  • 核心组件:Inception Achitecture
    • Split-Merge ⇒ 1×1 卷积、3×3 卷积、5×5 卷积、3×3 池化:增加网络对多尺度的适应性、增加网络宽度;
    • Bottleneck Layer ⇒ 使用 NiN 的1×1 卷积进行特征降维。
  • 取消全连接层;

4

  • 全局平均池化 GAP: 针对整张 feature map:

5

(2)、Inception V2

  • 核心组件:Batch Normalization:
    • 使每一层的输出都规范化到 N   ( 0 , 1 ) N~(0, 1) N (0,1)
    • 允许较高学习率;
  • 5×5 卷积核 ⇒ 2个 3×3 卷积核;

6

  • Batch Normalization 的位置: 卷积 ⇒ BN ⇒ ReLu。

(3)、Inception V3

  • 核心组件:非对称卷积:
    • N×N 分解成 1×N & N×1;
    • 降低参数数量和计算量。

(4)、Inception V4

7

4、ResNet

8

5、ResNeXt

  • 提出“深”和“宽”之外的第三个维度:
    • 基数 cardinality:
      • 采用 Split-Transform-Aggregate 策略:
        • 将卷积核按通道分组,形成 32个并行分支;
        • 低维度卷积进行特征变换;
        • 加法合并。
  • 100层 ResNeXt = 200层 ResNet

9


二、CNN 设计准则

  1. 避免信息瓶颈:
    • 卷积过程中:
      • 空间尺寸 H×W 逐渐变小;
      • 输出通道数 C 逐渐变多。
    • H × W × C 要缓慢变小。

10

  1. 卷积核的通道数量保持在可控范围内:

    • 参数数量 = H × W × C × K。
  2. 感受野要足够大:

    • 多个小尺寸卷积核好于一个大尺寸卷积核:
      • 参数少,计算快;
      • 多个非线性激活。
  3. 分组策略 ⇒ 降低计算量
    11


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值