揭秘CVPR2017 WebVision图片分类竞赛冠军背后的技术

最新推荐文章于 2024-06-18 11:00:32 发布

深度学习大讲堂

最新推荐文章于 2024-06-18 11:00:32 发布

阅读量4.6k

点赞数 1

本文链接：https://blog.csdn.net/XWUkefr2tnh4/article/details/78899543

版权

本文揭秘了2017年CVPR WebVision图片分类竞赛的冠军技术，深入探讨了他们在深度学习和计算机视觉领域的创新应用。

摘要由CSDN通过智能技术生成

点击上方“深度学习大讲堂”可订阅哦！

编者按：随着终端摄像设备的普及，互联网上存在着海量的数据资源。然而，由于这些数据存在无标注、有噪标注等问题，并不能够直接应用于机器学习任务。在如今“数据为王”的时代，如果能够利用小样本精确标注数据来训练模型，并进一步泛化到大样本有噪标注、乃至无标注数据中，将为基于图像的机器学习任务带来巨大进步。本文中， CVPR2017 WebVision图片分类竞赛冠军黄伟林博士，将为大家介绍，如何利用海量无精确人工标注的网络图片，训练高性能神经网络模型。文末，大讲堂特别提供文中提到所有文章的下载链接。

本文整理自Valse Webinar 2017-11-29期报告。

我所在的码隆科技团队在CVPR 2017 WebVision图片分类竞赛中取得了冠军，这里主要就比赛经验和大家分享一下。

训练一个神经网络通常需要数据（ImageNet, Webvision）、网络 (AlexNet, GoogleNet, VggNet和ResNet等)、损失函数三个必要成分。这三个方面在训练过程中扮演什么样的角色呢？首先，数据是学习的资源；其次，网络结构主要解决“how to do”的问题，指导网络如何完成一项任务，它提供从输入图像到特征空间的一个映射；然后，损失函数主要解决“what to do”的问题，指导网络做什么事情，比如分类，检测和分割等任务。最终模型性能高低体现在哪一部分呢？卷积神经网络其实是一个特征提取过程，只要特征这块提取的好，剩下的任务就相对简单了。而决定特征的好坏，就是中间这个how to do这块，也就是训练CNN得到的参数和最终模型。这里就像人的大脑，是由大量的神经元组成的。我们训练一个神经网络，就好比一个人，或者一个婴儿的学习过程。决定它性能的好坏有三个因素：数据，网络结构，loss方程。除了这三个，还有一个非常重要却经常被人们忽略的因素——学习策略，最近几年在机器学习圈子里它的关注度逐渐升温。所谓学习策略，是指采用一定的学习计策让模型学习得更加高效。比如教一个小孩学习，为了使他学得更高效，就不可能让一个小学生去学习大学课程，而是采用循序渐进的由易及难策略。在这里主要跟大家分享我们在学习策略方面的改进。

此外值得一提的是，在刚才所提的三方面中，我个人认为数据是最重要的，深度学习由数据驱动。在现实应用特别是公司项目中，如果能够较好地定义、收集及标注数据，那么项目就成功了70%。但是在学术圈，大家通常在标准的数据集（benchmark）上进行工作，所以网络结构（方法、模型）更受关注，这大概是学术圈过去五六年一直在做的一个主要东西。从2012年的ImageNet到今年的SENet，网络性能在不断提高，甚至今年ImageNet上top-5 error已经到了2.2%，所以经过多年的发展新模型结果的改进已趋向饱和。

最近两年学术圈的关注点集中在如何设计损失函数，有两个方面的工作。其一，随着数据及任务复杂度的提升，大家设计更加复杂的损失函数来解决更加复杂的问题，比如最近Mask R-CNN是在物体检测的框架上，进一步解决更加复杂的instance-level segmentation问题；其二，通过优化或者额外设计损失函数来提高模型的综合性能，可以添加额外的监督信息或者其他信息来训练模型，比如最近基于attention机制的模型通过额外的损失函数来提高模型的性能。

下面说说WebVision这个比赛。我们参加CVPR 2017 WebVision竞赛的出发点是什么？首先，ImageNet比赛的性能已经趋向饱和，图片分类top-5错误率从2009年的30%降到了2017年的2.2%，我们想尝试一下更具有挑战性的任务，在没有人工标注的情况下训练高效的卷积神经网络，这属于弱监督学习的一个问题。此外，我们想尝试在现实世界中训练大规模的数据，并探索数据、模型结构、损失函数以及训练策略在训练模型过程中起的作用。最后，WebVision的数据场景跟目前多数AI公司用的数据非常相似。利用网络图片训练网络符合当前工业界的主流和趋势。以上是我们参加比赛的主要出发点。

Webvision比赛主要是由ETH(苏黎世联邦理工)、谷歌和CMU共同举办的，如图是举办者的一些信息。

WebVision数据集主要有Google和Flickr两个数据源。主要是利用ImageNet 1000个类的文本信息从网站上爬数据，所以它的数据类别与ImageNet完全一样，为1000类别，由240万幅图片构成训练数据，比ImageNet的两倍还多，分别由5万张图片构成验证集和测试集（均带有人工标注）。

WebVision数据集主要有两个挑战。

第一个挑战，数据分布非常不平衡。如图横坐标代表1000个类别，纵坐标代表每个类别的图片数量。如图浅蓝色的平稳曲线是ImageNet的数据分布，每一个类别大概有1200张图片。而深蓝色曲线为WebVision数据分布，可以看出有的类别高达11000张而最少的小于400张图片，这种极度不平衡的分布对训练模型影响非常大。

第二个挑战，数据集含有大量错误标签。如图所示，每一行代表一个类别，从图中可以看出数据集中含有大量与类别不相关的图片，也就是所谓的噪声，这也是最主要的一个难点。

处理含有大量错误标签的算法通常有两种。第一种方法直接从有噪数据中学习，这里有两种思想，其一是设计一些对噪声鲁棒的算法，其二是让模型自动检测出干净样本和有噪样本，然后直接丢弃或者修正错误标签，再进行模型训练。这类方法有一个缺点，即很难从难训练样本（hard training samples）中准确识别出错误标签的样本，而这些hard samples 通常对提升模型的性能是非常重要的。第二种方法主要采用半监督学习ÿ

最低0.47元/天解锁文章

深度学习大讲堂

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
揭秘CVPR2017 WebVision图片分类竞赛冠军背后的技术

点击上方“深度学习大讲堂”可订阅哦！编者按：随着终端摄像设备的普及，互联网上存在着海量的数据资源。然而，由于这些数据存在无标注、有噪标注等问题，并不能够直接应用于机器学习任务。在如今“数据为王”的时代，如果能够利用小样本精确标注数据来训练模型，并进一步泛化到大样本有噪标注、乃至无标注数据中，将为基于图像的机器学习任务带来巨大进步。本文中， CVPR2017 WebVision图片分类竞赛冠军黄伟林
复制链接

扫一扫