目录
sift 专利 cv里面没有编译
|
第四讲 图像分类 image classification研究和竞赛中最传统的问题CNN起家的问题 1. 图片分类 2. 竞赛 3. 卷积神经网络 4. 应用案例:超深残差神经网络 Resnet 50层
|
1. 图片分类: 属于某一类? 打标签 输出5个 top-5 错误率 :只要5个预测中有一个命中,就算对了
top-1 error: 只预测1个。
top5 error用的更多 |
2. 竞赛 ImageNet Larger Scale Visual Recognition Challenge 多个任务 图像分类: 1000个类别 训练集(12M),验证集 50k, 测试集 150k http://image-net.org/challenges/LSVRC/2016/index imageNet数据集 根据wordNet组织的图片集 100 000+ 个词、词组(synsets) 8000+ 名词 场景分类(大概说一下): 背景 室内室外 自然场景 MIT places2数据集(10M+,分类400+),365场景分类, 训练集(8M),验证集(36K),测试集(328K) 物体检测(object detectoin R_CNN): 基本上与训练的CNNmodel都指的是ImageNet。基础网络,预训练模型 是其他模型的初始化网络 物体定位(instance level): 场景解析(scene parsing):
|
网络进化:
|
alexNEt VGG GoogleNet ResNet深度: 8 19 22 152 VGG ResNet 结构 简洁有效 性能很好 已修改 迁移到其他任务 高层任务的基础网络 性能竞争 网络: GoogleNet : inception v1 --v4 split-transform-merge
ResNet: ResNet 152 ResNeXt 深度 宽度 基数(三个维度)
|
性能进化史 v4 带了直连思想
|
卷积神经网络激活函数: 非线性 sigmoid (深度模型不太好用,) relu 分段线性,没有饱和(resnet可以成功训练出来的重要原因,解决梯度消失的问题)
卷积: 卷积 步长大于1 有降低维度 增加非线性 卷积降维 ()步长大于1) 步长为1的话相当于没有降维
|
池化: 最终输出标签,1*1000 池化 特征融合,尺寸降维,不降通道一定相邻区域 特征 融合 多通道 每个层 各做各的 平均池化 最大化池化() 超参: 尺寸 步长 计算类别(平均池化 最大池化) |
全连接: 作用 推理器,去除空间信息 抹掉空间信息 和基础圣经网络一样的 前面的卷积层 提取特征 层数越多,语义层数更高 全局感受野,卷积核的尺寸可以认为和输入图片一样
|
工程trick: 图像像素中心化: RGB减去各自通道的均值 防止过拟合: 数据增强x10: 256x256 提取中心和四角 224x224 自图片x5, 水平翻转 x2 dropout: 训练中,随机让一些神经元 输出设为0,失活率 0.5
|
Alex Net:image-net 2012 竞赛第一,标志着 DNN深度学习革 |