OpenMMLab 实战营打卡 - 第 2 课

最新推荐文章于 2024-06-07 13:01:43 发布

桑_榆

最新推荐文章于 2024-06-07 13:01:43 发布

阅读量111

点赞数

分类专栏： MMLab实战训练营文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/shengweiit/article/details/128865313

版权

MMLab实战训练营专栏收录该内容

20 篇文章 3 订阅

订阅专栏

通用视觉框架OpenMMlab 图像分类与基础视觉模型

一什么是图像分类
二机器学习识别图像的局限性
- 2.1 传统方法：设计图像特征（1990-2000）
- 2.2 特征工程的天花板
三深度学习时代的开始
四更强的图像分类模型

一什么是图像分类

给定一张图片，识别图像中的物体是什么。

1.1 问题的数学表示

图像是像素构成的数组，对类别进行编号，图像分类问题就是构建一个可计算实现的函数，通过模型训练，拟合这个函数关系。

1.2 视觉任务的难点

图像的内容是像素整体呈现出来的结果，和个别像素的值没有直接关联，难以遵循具体的规则设计算法，需要对全局图片的像素值投喂进计算机，让计算机看懂全局。像上面的图一样，把一张图片转换为tensor的形式。

1.3 视觉任务一般流程

最后就是应用模型了。

二机器学习识别图像的局限性

机器学习算法善于处理低维度，分布相对简单的数据，图像数据在十几万维的空间中以复杂的方式“缠绕”在一起常规的机器学习算法难以处理这种复杂数据分布。
机器学习算法的难点

2.1 传统方法：设计图像特征（1990-2000）

机器学习
方向梯度直方图：在局部区域统计像素梯度的方向的分布，将图像映射成一个相对低维的特征向量，同时能够保留有用信息。

2.2 特征工程的天花板

在ImageNet图像识别挑战赛中，2010和2011年的冠军队伍都使用了经典的视觉算法，基于手工设计特征+机器学习算法实现图像分类。受限于人类的智慧，手工设计特征更多局限在像素层面的计算，丢失信息过多，在视觉任务三的性能达到瓶颈。
下面看如下图，特征工程到特征学习

卷积实现一步特征提取，特征和图像一样具有二维空间结构，后层特征为空间领域内前层特征的加权求和。（卷积神经网络）

多头注意力 实现一步特征提取。（Transformer）
Trans

三深度学习时代的开始

在2012年的竞赛中，来自多伦多大学的团队首次使用深度学习方法，在ImageNet中错误率降低至15.3%，而传统视觉算法的性能达到瓶颈，2015年，卷积网络的性能超越人类。

3.1 AlexNet网络（2012）

第一个成功实现大规模图像的模型，在ImageNet数据集上达到85%的Top-5准确率
五个卷积层，3个全链接层，共有60M个可学习参数
使用ReLU函数激活，大幅度提高收敛速度
实现并开源了cuda-convnet，在GPU上训练大规模神经网络在工程上称为可能
AlexNet论文: ImageNet Classification with Deep Convolutional Neural Networks

3.2 VGG（2014）

将大尺寸的卷积拆解为多层3X3的卷积
相同的感受野、更少的参数量、更多的层数和表达能力
一层 5X5的卷积与两层3X3的卷积有同样的感受野
参数更改

网络层数：11，13，16，19
3X3的卷积配合1像素的边界填充，维持空间分辨率
每隔几层倍增通道数、减半分辨率，生成1/2、1/4尺度的更高抽象层级的特征
不同层次的特征在尺寸上有简单的比例关系，方便在位置敏感的下游任务中使用，如检测、分割等
VGG论文: [1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition