深度学习理论与实践

之前深度学习理论方面接触过几次,原理书籍视频看过两遍,各种原因动手实践较少,现在工作中需要,本篇主要用于总结深度学习在实际工程中所需的理论知识点。

0 训练集、验证集和测试集

  • train 是训练集,
  • val (validation的简称)是训练过程中的测试集,是边训练边看到训练的结果,及时判断学习状态。
  • test 用于评价模型结果的测试集。

一般的,val的数据集和train没有交集,所以这部分数据对最终训练出的模型没有贡献,其主要作用是来验证是否过拟合、以及用来调节训练参数等。

例:
训练0-5000次迭代过程中,train和val的loss都是不断降低,
但是从5000-10000过程中train loss不断降低,validation的loss不降反升。
那么就证明继续训练下去,模型只是对train dataset这部分拟合的特别好,但是泛化能力很差。
所以与其选取10000次的结果,不如选择5000次的结果。

需要注意的是正常代码提供的是两种划分,即train和test两部分,我们在划分train的数据集中再划分为两部分,即可设定val数据集。常见使用K-fold cross-validation交叉验证法,将所有数据重新随机划分出训练集和验证集。在工程实践中也有直接划定一部分数据当作验证集。

我们所使用的train_ test_split属于留出法,也就是随机将一部分数据作为训练集,剩下的作为测试集。但对样本信息的利用往往不充分,并且需要的样本量较大。如果我们本身样本量有限,并且想充分利用数据集中的信息,我们可以采用交叉验证法。
交叉验证法是将数据集划分为k个大小相似的互斥子集,并在划分时保持数据分布的一致性,每次用k-1个子集的并集作为训练集,剩余的做测试集,进行k次训练,最后取k次结果的均值。该方法依赖于k值的选取,通常取10,因此也称为k折交叉验证(k-fold-cross-validation),当k=1时称为留一法(Leave-One-Out)。由于留一法在样本量大时计算量较大,所以主要用于样本量比较少的情况。在实际应用中,我们只进行一次交叉验证可能是不够的,而要进行多次,称为p次k折交叉验证,一般取p=k=10。

//TODO:后续补上操作
可参考 交叉验证方法汇总【附代码】(留一法、K折交叉验证、分层交叉验证、对抗验证、时间序列交叉验证)

1 数据集了解

1.1 coco数据集

1.1.1 coco数据集简介

MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。
MS COCO的全称是Microsoft Common Objects in Context,起源于是微软于2014年出资标注的Microsoft COCO数据集,与ImageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
当在ImageNet竞赛停办后,COCO竞赛就成为是当前目标识别、检测等领域的一个最权威、最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微软、Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。
该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精确定位。COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。

1.1.2 coco数据集基本结构

coco是直接将所有的图片信息及其对应的bbox信息写在了同一个json下。
首先需要了解一下coco的基本结构

coco
|______annotations # 存放标注信息
|        |__train.json
|        |__val.json
|        |__test.json
|______trainset # 存放训练集图像
|______valset   # 存放验证集图像
|______testset  # 存放测试集图像
 
一个json包含如下信息
{ 
    "info" : info,
    "licenses" : [license],
    "images" : [image],
    "annotations" : [annataton],
    "categories" : [category]
}

通过上面的json整体结构可以看出,info这个key对应的值的类型是一个字典;licenses、images、annotations和categories这四个key对应的值的类型都是一个列表,列表当中存储的数据类型依旧是字典。
我们可以通过len(List)的方式得到images、annotations、categories这三个列表的长度,也就得到了以下内容。
(1)images字段列表元素的长度 = 划入训练集(或者测试集)的图片的数量;
(2)annotations字段列表元素的数量 = 训练集(或者测试集)中bounding box的数量;
(3)categories字段列表元素的数量 = 类别的数量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周陽讀書

周陽也想繼往聖之絕學呀~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值