计算机视觉--笔记--图像分类--网络进化史

目录

第四讲 图像分类 image  classification  

研究和竞赛中最传统的问题

网络进化:

alexNEt  VGG GoogleNet  ResNet

卷积神经网络  

Alex Net:

VGG Net

GoogleNet

inception v1:

inception V2

inception V3

inception V4

ResNet 残差网络

 

resNeXt网络:

CNN设计准则:


sift  专利 cv里面没有编译

 

第四讲 图像分类 image  classification  

研究和竞赛中最传统的问题

CNN起家的问题

1. 图片分类

2. 竞赛

3. 卷积神经网络

4. 应用案例:超深残差神经网络 Resnet 50层

 

1. 图片分类:

属于某一类? 打标签

输出5个 top-5 错误率 :只要5个预测中有一个命中,就算对了

 

top-1 error: 只预测1个。

 

top5 error用的更多

2. 竞赛   ImageNet Larger Scale Visual Recognition Challenge

多个任务

    图像分类:

         1000个类别

        训练集(12M),验证集 50k, 测试集 150k  http://image-net.org/challenges/LSVRC/2016/index

imageNet数据集   

根据wordNet组织的图片集

100 000+ 个词、词组(synsets)

8000+ 名词

场景分类(大概说一下):

背景  室内室外 自然场景 

MIT places2数据集(10M+,分类400+),365场景分类,  训练集(8M),验证集(36K),测试集(328K)

物体检测(object detectoin  R_CNN):

基本上与训练的CNNmodel都指的是ImageNet。基础网络,预训练模型 是其他模型的初始化网络

物体定位(instance level):

场景解析(scene parsing):

 

网络进化:

 

 

alexNEt  VGG GoogleNet  ResNet

深度: 8  19  22  152

VGG ResNet 结构 简洁有效    性能很好

已修改 迁移到其他任务

高层任务的基础网络

性能竞争 网络:

GoogleNet : inception v1 --v4

split-transform-merge

 

ResNet:   ResNet 152       ResNeXt

深度 宽度 基数(三个维度)

 

 

性能进化史

v4  带了直连思想

 

 

卷积神经网络  

激活函数:

非线性

sigmoid  (深度模型不太好用,)

relu 分段线性,没有饱和(resnet可以成功训练出来的重要原因,解决梯度消失的问题)

 

卷积:

卷积 步长大于1   有降低维度  增加非线性

卷积降维 ()步长大于1)  步长为1的话相当于没有降维

 

池化:

最终输出标签,1*1000  池化  特征融合,尺寸降维,不降通道一定相邻区域 特征 融合

多通道 每个层 各做各的

平均池化

最大化池化()

超参: 尺寸 步长 计算类别(平均池化  最大池化)

全连接:

作用 推理器,去除空间信息

抹掉空间信息

和基础圣经网络一样的

前面的卷积层 提取特征 层数越多,语义层数更高

全局感受野,卷积核的尺寸可以认为和输入图片一样

 

 

 

 
 

工程trick:

图像像素中心化:    RGB减去各自通道的均值

防止过拟合:

数据增强x10:  256x256 提取中心和四角 224x224 自图片x5,  水平翻转  x2

dropout: 训练中,随机让一些神经元 输出设为0,失活率 0.5

 

 

 

Alex Net:

image-net 2012 竞赛第一,标志着 DNN深度学习革

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值