这节课讲解 图像分类算法基础
1. 任务怎么做
2. 函数怎么设计以及技巧
3. 监督和自监督
第一部分:
机器学习擅长的是低位简单的数据,而图象是相对复杂的,所以要设计特征提取算法,将图像降维成许多向量。比如:把图像划分成小网格,每个网格内有9个方向,像素间有梯度关系,统计梯度方向,并在每个网格中画出线,则构成了输出,为简化图像后的数据表达。
这种方式有性能瓶颈,并且不容易设计,故出现了深度学习,让特征提取也可以学习。
第二部分:历史
VGG、GoogLeNet | 提高层数,感受力更强。
ResNet | 提出残差学习,是使用最广泛的模型结构。
神经结构搜索 | 强化学习等方法预测最佳的网络结构
Transformer | 自然语言处理用的,2020年开始用于视觉。基本计算单元是注意力机制。
第三部分:
监督学习的技巧:
随机初始化——Kaiming 或 使用预训练模型
学习率:按步长、比例、倒数、余弦函数下降,或者升温,即初始也不能太大,要上升。batch size 扩大,学习率也要扩大
自适应:不同参数需要不同的学习率,根据历史幅度自动调整。
正则项:防止过拟合
权重平均:假设是模型优化是绕最低点转而不是掉进去
数据增强:数据比较少,用来扩展数据集
标签平滑:加一些噪声,降低标签的自信程度
简要介绍非监督学习:
用图像的一部分预测图像的另外一些部分,只有对图像有一定理解才能预测,训练这个理解能力。