3_GoogLeNetV1

Going deeper with convolutions

更深的卷积网络

简介

Inception v1-GoogLeNet(论文阅读总结) - 知乎 (zhihu.com)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 开启多尺度卷积时代
  • 拉开1*1卷积广泛应用序幕
  • 为GoogLeNet系列开辟道路

在这里插入图片描述

在这里插入图片描述

GoogLeNet结构

Inception Module

在这里插入图片描述

特点:

  • 1.多尺度
  • 2.1*1卷积降维,信息融合
  • 3.3*3 max pooling保留了特征图数量

在这里插入图片描述

  • 3*3 pool可让特征图通道数增加,且用较少计算量
    缺点:
    数据量激增 计算量大

  • 解决方法:引入1*1卷积压缩厚度

在这里插入图片描述

在这里插入图片描述

  • 3 * 3 * 256 * 192 = 442,368‬ -> 1 * 1 *256 * 64 + 3 * 3 * 64 * 192 = 16,384 + 110,592‬

在这里插入图片描述

  • 三阶段:conv-pool-conv-pool 快速降低分辨率 输入224 * 224 * 3 经过卷积、池化、卷积、卷积、池化后下降到 28 * 28;:堆叠I nception; FC层分类输出

  • 堆叠使用Inception Module,达22层

  • 增加两个辅助损失,缓解梯度消失(中间层特征具有分类能力)

在这里插入图片描述

  • 总体上可以分为五个模块

训炼技巧

辅助分类层

  • 增加loss回传
  • 充当正则约束,迫使中间层特征也能具备分类能力

在这里插入图片描述

    • 平均池化层:大小5×5,步幅 3,(4a)为4×4×512输出,(4d)为4×4×528输出
    • 1×1卷积层+ReLU:128个卷积核,降维
    • 全连接层+ReLU:1024维
    • dropout:70%
    • A linear layer with softmax loss:预测1000类

LR下降策略

论文中没有提到具体采用了多少个epoch

每8个epoch下降4%: fixed learning rate schedule (decreasina the learning rate biy A k cvery epochs)

0.96^100 =0.016 , 800个epochs,才下降不到100倍

数据增强

  • 图像尺寸均匀分布在8%-100%之间
  • 长宽比在[3/4,4/3]之间
  • Photometric distortions(光度畸变),如亮度、饱和度和对比度等,有效减轻过拟合

测试技巧

Multi crop

1 * 4 * 3 * 6 * 2 = 144

  • 等比例缩放短边至256,288,320,352,四种尺寸。

  • 在长边上裁剪出3个正方形,左中右或者上中下,三个位置。

  • 左上、右上,左下,右下,中心,全局resize,六个位置。

  • 水平镜像。

模型融合

七个模型训练差异仅在图像采样方式和顺序的差异

在这里插入图片描述

实验结果及分析

  • 分类结果

在这里插入图片描述

在这里插入图片描述

  • 目标检测结果

在这里插入图片描述

稀疏结构

稀疏矩阵

  • 稀疏矩阵:数值为0的元素数目远远多于非0元素的数目,且无规律

  • 稠密矩阵:数值非0的元素数目远远多于为0元素的数目,且无规律

  • 稀疏矩阵优点是,可分解成密集矩阵计算来加快收敛速度

在这里插入图片描述

特征图通道的分解

在这里插入图片描述

总结

关键点、创新点

  • 大量使用1*1卷积,可降低维度,减少计算量,总参数是AlexNet的十二分之一
  • 多尺度卷积核,实现多尺度特征提取
  • 辅助损失层,增加梯度回传,相当于增加正则项,减轻过拟合
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值