深度学习的必要性与平台工具
-
全连接网络问题:全连接网络存在链接权过多、计算慢、难收敛、易过拟合等问题。如处理1000×1000图像时,隐含层有1M个节点,输入到隐含层间参数达1×10121×10^{12}1×1012数量级。可通过减少权值连接(局部连接网络)和信息分层处理解决。
-
深度学习平台简介:
-
PyTorch基本概念:
- 张量(Tensor)
- 计算图
- 使用tensor表示数据,Dataset和DataLoader读取数据,变量存储神经网络权值,通过构建计算图进行计算,代码运行时执行计算图。
卷积神经网络基础
- 典型任务:图像分类、目标定位、语义分割等。
- 基本概念:
- 特征提取:模拟人类视觉感知,通过卷积对原始图像滤波
- 填充:增加矩阵大小
- 步长:控制卷积操作的间隔
- 多通道卷积:处理RGB等多通道图像
- 池化:统计特征减少特征数量
- 网络结构:卷积神经网络由卷积层、下采样层和全连接网络构成。
- 学习算法:
-
前向传播定义了卷积层和池化层的计算过程
-
误差反向传播(BP)算法用于更新网络参数,
-
经典BP算法
-
卷积神经网络中不同层之间误差回传的计算方法
-
-
经典卷积神经网络
-
LeNet - 5网络:由Yann LeCun等人提出,用于手写字符识别。
- 网络结构包含卷积层、池化层和全连接层
- 与现在网络的区别
- 卷积时不进行填充
- 使用平均池化而非最大池化
- 用Sigmoid或tanh而不是ReLU作为激活函数
- 层数浅、参数少
-
AlexNet
- 网络有8层可学习层,采用最大池化、ReLU激活函数(用于卷积层与全连接层之后),网络规模大参数多,出现“多个卷积层 + 一个池化层”结构,还通过数据增强、Dropout(全连接层之后的Dropout层,以概率p随机关闭激活函数)、双GPU策略等改进提升性能。
-
VGG - 16:研究卷积网络深度对精度的影响,网络结构规整,使用小卷积核(3×3),参数数量约1.38亿,随着网络深入,高和宽衰减,通道数增多。
-
残差网络:针对非残差网络梯度消失问题提出,引入残差块,通过捷径连接让网络学习残差,训练更深的网络变得更容易,在CIFAR - 10实验中表现良好。
常用数据集
- MNIST数据集:手写数字图片
- Fashion-MNIST数据集:手写数字图片
- CIFAR-10数据集:10个类的彩色图片
- PASCAL VOC数据集:目标分类检测分割
- MS COCO:目标分类检测分割语义标注,80类
- ImageNet数据集
- ISLVRC 2012子数据集
- 谷歌JFT-300M