专栏链接:
https://blog.csdn.net/qq_39707285/article/details/124005405
本专栏主要总结深度学习中的知识点,从各大数据集比赛开始,介绍历年冠军算法;同时总结深度学习中重要的知识点,包括损失函数、优化器、各种经典算法、各种算法的优化策略Bag of Freebies (BoF)等。
本章介绍各数据集以及历年冠军
文章目录
1. 重要比赛历年冠军
1.1. 数据集
深度学习发展起来有几个关键的因素,一个就是庞大的数据(比如说ImageNet),一个是GPU的出现。(还有更优的深度模型,更好的优化算法,可以说数据和GPU推动了这些的产生,这些产生继续推动深度学习的发展)。
1.1.1. ImageNet
- 包含超过1500万的图像数据集,大约有22,000个类别。
- 该数据集由李飞飞团队从2007年开始,耗费大量人力,通过各种方式(网络抓取,人工标注,亚马逊众包平台)收集制作而成,它作为论文在CVPR-2009发布。当时人们还很怀疑通过更多数据就能改进算法的看法。
- 数据集官网
1.1.2. PASCAL VOC
- PASCAL VOC 挑战赛主要有 Object Classification 、Object Detection、Object Segmentation、Human Layout、Action Classification 这几类子任务。
- PASCAL VOC 2007 和 2012 数据集总共分 4 个大类:vehicle、household、animal、person,总共 20 个小类(加背景 21 类),预测的时候是只输出下图中黑色粗体的类别。
- 数据集官网
VOC 2007数据集图片/目标总数量统计。
1.1.3. MS COCO
数据集官网
MS COCO的全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集。
COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。
COCO数据集包含20万个图像;80个类别中有超过50万个目标标注,它是最广泛公开的目标检测数据库
1.2. 历年冠军
1.2.1 ImageNet的分类结果
年份 | 网络/队名 | val error top-1 | val error top-5 | test top-5 | 备注 |
---|---|---|---|---|---|
2012 | AlexNet | 38.1% | 16.4% | 16.42% | 5 CNNs |
2012 | AlexNet | 36.7% | 15.4% | 15.32% | 7CNNs。用了2011年的数据 |
2013 | OverFeat | 14.18% | 7 fast models | ||
2013 | OverFeat | 13.6% | 赛后。7 big models | ||
2013 | ZFNet | 13.51% | ZFNet论文上的结果是14.8 | ||
2013 | Clarifai | 11.74% | |||
2013 | Clarifai | 11.20% | 用了2011年的数据 | ||
2014 | VGG | 7.32% | 7 nets, dense eval | ||
2014 | VGG(亚军) | 23.7% | 6.8% | 6.8% | 赛后。2 nets |
2014 | GoogleNet v1 | 6.67% | 7 nets, 144 crops | ||
GoogleNet v2 | 20.1% | 4.9% | 4.82% | 赛后。6 nets, 144 crops | |
GoogleNet v3 | 17.2% | 3.58% | 赛后。4 nets, 144 crops | ||
GoogleNet v4 | 16.5% | 3.1% | 3.08% | 赛后。v4+Inception-Res-v2 | |
2015 | ResNet | 3.57% | 6 models | ||
2016 | Trimps-Soushen | 2.99% | 公安三所 | ||
2016 | ResNeXt(亚军) | 3.03% | 加州大学圣地亚哥分校 | ||
2017 | SENet | 2.25% | Momenta 与牛津大学 | ||
2018 | PNASNet-5 | 17.1% | 3.8% | ||
2019 | FixResNeXt-101 | 13.6% | 2.0% | ResNeXt | |
2020 | EfficientNet-L2-475(SAM) | 11.39% | EfficientNet | ||
2021 | CoAtNet-7 | 9.12% | Transformer | ||
2021 | Meta Pseudo Labels (EfficientNet-L2) | 9.8% | EfficientNet | ||
2022 | Model soups(ViT-G/14) | 9.06% | Transformer |
1.2.2 ImageNet的定位结果
年份 | 网络/队名 | val top-1 | test top-5 | 备注 |
---|---|---|---|---|
2012 | AlexNet | 34.19% | 多伦多大学Hinton和他学生 | |
2012 | AlexNet | 33.55% | 用了2011年的数据 | |
2013 | OverFeat | 30.0% | 29.87% | 纽约大学Lecun团队 |
2014 | GoogleNet | 26.44% | 谷歌 | |
2014 | VGG | 26.9% | 25.32% | 牛津大学 |
2015 | ResNet | 8.9% | 9.02% | 微软 |
2016 | Trimps-Soushen | 7.71% | 公安三所,以Inception, resNet, WRN等为基础 | |
2017 | DPN | 6.23% | 新加坡国立大学与奇虎360 |
1.2.3 ImageNet的检测结果
年份 | 网络/队名 | mAP(%) | 备注 |
---|---|---|---|
2013 | OverFeat | 19.40 | 使用了12年的分类数据预训练 |
2013 | UvA | 22.58 | |
2013 | OverFeat | 24.3 | 赛后。使用了12年的分类数据预训练 |
2014 | GoogleNet | 43.93 | R-CNN |
2015 | ResNet | 62.07 | Faster R-CNN |
2016 | CUImage | 66.28 | 商汤和港中文,以GBD-Net等为基础 |
2017 | BDAT | 73.41 | 南京信息工程大学和帝国理工学院 |