深度学习理论与实践

周陽讀書

已于 2023-10-27 16:46:59 修改

阅读量96

点赞数

分类专栏： All-In-One 深度学习文章标签：深度学习人工智能

于 2023-10-20 15:51:01 首次发布

本文链接：https://blog.csdn.net/weixi234/article/details/133940600

版权

All-In-One 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

深度学习

5 篇文章 0 订阅

订阅专栏

之前深度学习理论方面接触过几次，原理书籍视频看过两遍，各种原因动手实践较少，现在工作中需要，本篇主要用于总结深度学习在实际工程中所需的理论知识点。

文章目录

0 训练集、验证集和测试集
1 数据集了解
- 1.1 coco数据集
- - 1.1.1 coco数据集简介
  - 1.1.2 coco数据集基本结构

0 训练集、验证集和测试集

train 是训练集，
val (validation的简称)是训练过程中的测试集，是边训练边看到训练的结果，及时判断学习状态。
test 用于评价模型结果的测试集。

一般的，val的数据集和train没有交集，所以这部分数据对最终训练出的模型没有贡献，其主要作用是来验证是否过拟合、以及用来调节训练参数等。

例：
训练0-5000次迭代过程中，train和val的loss都是不断降低，
但是从5000-10000过程中train loss不断降低，validation的loss不降反升。
那么就证明继续训练下去，模型只是对train dataset这部分拟合的特别好，但是泛化能力很差。
所以与其选取10000次的结果，不如选择5000次的结果。

需要注意的是正常代码提供的是两种划分，即train和test两部分，我们在划分train的数据集中再划分为两部分，即可设定val数据集。常见使用K-fold cross-validation交叉验证法，将所有数据重新随机划分出训练集和验证集。在工程实践中也有直接划定一部分数据当作验证集。

我们所使用的train_ test_split属于留出法，也就是随机将一部分数据作为训练集，剩下的作为测试集。但对样本信息的利用往往不充分，并且需要的样本量较大。如果我们本身样本量有限，并且想充分利用数据集中的信息，我们可以采用交叉验证法。
交叉验证法是将数据集划分为k个大小相似的互斥子集，并在划分时保持数据分布的一致性，每次用k-1个子集的并集作为训练集，剩余的做测试集，进行k次训练，最后取k次结果的均值。该方法依赖于k值的选取，通常取10，因此也称为k折交叉验证（k-fold-cross-validation），当k=1时称为留一法（Leave-One-Out）。由于留一法在样本量大时计算量较大，所以主要用于样本量比较少的情况。在实际应用中，我们只进行一次交叉验证可能是不够的，而要进行多次，称为p次k折交叉验证，一般取p=k=10。

//TODO:后续补上操作
可参考交叉验证方法汇总【附代码】（留一法、K折交叉验证、分层交叉验证、对抗验证、时间序列交叉验证）

1 数据集了解

1.1 coco数据集

1.1.1 coco数据集简介

MS COCO的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。
COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标，328,000影像和2,500,000个label。目前为止有语义分割的最大数据集，提供的类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。
MS COCO的全称是Microsoft Common Objects in Context，起源于是微软于2014年出资标注的Microsoft COCO数据集，与ImageNet 竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。
当在ImageNet竞赛停办后，COCO竞赛就成为是当前目标识别、检测等领域的一个最权威、最重要的标杆，也是目前该领域在国际上唯一能汇集Google、微软、Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。
该数据集主要解决3个问题：目标检测，目标之间的上下文关系，目标的2维上的精确定位。COCO数据集有91类，虽然比ImageNet和SUN类别少，但是每一类的图像多，这有利于获得更多的每类中位于某种特定场景的能力，对比PASCAL VOC，其有更多类和图像。

1.1.2 coco数据集基本结构

coco是直接将所有的图片信息及其对应的bbox信息写在了同一个json下。
首先需要了解一下coco的基本结构

coco
|______annotations # 存放标注信息
|        |__train.json
|        |__val.json
|        |__test.json
|______trainset # 存放训练集图像
|______valset   # 存放验证集图像
|______testset  # 存放测试集图像
 
一个json包含如下信息
{ 
    "info" : info,
    "licenses" : [license],
    "images" : [image],
    "annotations" : [annataton],
    "categories" : [category]
}

通过上面的json整体结构可以看出，info这个key对应的值的类型是一个字典；licenses、images、annotations和categories这四个key对应的值的类型都是一个列表，列表当中存储的数据类型依旧是字典。
我们可以通过len(List)的方式得到images、annotations、categories这三个列表的长度，也就得到了以下内容。
（1）images字段列表元素的长度 = 划入训练集（或者测试集）的图片的数量；
（2）annotations字段列表元素的数量 = 训练集（或者测试集）中bounding box的数量；
（3）categories字段列表元素的数量 = 类别的数量