揭秘CVPR2017 WebVision图片分类竞赛冠军背后的技术

本文揭秘了2017年CVPR WebVision图片分类竞赛的冠军技术,深入探讨了他们在深度学习和计算机视觉领域的创新应用。
摘要由CSDN通过智能技术生成

点击上方“深度学习大讲堂”可订阅哦!


编者按:随着终端摄像设备的普及,互联网上存在着海量的数据资源。然而,由于这些数据存在无标注、有噪标注等问题,并不能够直接应用于机器学习任务。在如今“数据为王”的时代,如果能够利用小样本精确标注数据来训练模型,并进一步泛化到大样本有噪标注、乃至无标注数据中,将为基于图像的机器学习任务带来巨大进步。本文中, CVPR2017 WebVision图片分类竞赛冠军黄伟林博士,将为大家介绍,如何利用海量无精确人工标注的网络图片,训练高性能神经网络模型。文末,大讲堂特别提供文中提到所有文章的下载链接。


本文整理自Valse Webinar 2017-11-29期报告。


我所在的码隆科技团队在CVPR 2017 WebVision图片分类竞赛中取得了冠军,这里主要就比赛经验和大家分享一下。

 

训练一个神经网络通常需要数据 (ImageNet, Webvision)、网络 (AlexNet, GoogleNet, VggNet和ResNet等)、损失函数三个必要成分。这三个方面在训练过程中扮演什么样的角色呢?首先,数据是学习的资源;其次,网络结构主要解决“how to do”的问题,指导网络如何完成一项任务,它提供从输入图像到特征空间的一个映射;然后,损失函数主要解决“what to do”的问题,指导网络做什么事情,比如分类,检测和分割等任务。 最终模型性能高低体现在哪一部分呢? 卷积神经网络其实是一个特征提取过程,只要特征这块提取的好,剩下的任务就相对简单了。而决定特征的好坏,就是中间这个how to do这块,也就是训练CNN得到的参数和最终模型。这里就像人的大脑,是由大量的神经元组成的。我们训练一个神经网络,就好比一个人,或者一个婴儿的学习过程。决定它性能的好坏有三个因素:数据,网络结构,loss方程。除了这三个,还有一个非常重要却经常被人们忽略的因素——学习策略,最近几年在机器学习圈子里它的关注度逐渐升温。所谓学习策略,是指采用一定的学习计策让模型学习得更加高效。比如教一个小孩学习,为了使他学得更高效,就不可能让一个小学生去学习大学课程,而是采用循序渐进的由易及难策略。在这里主要跟大家分享我们在学习策略方面的改进。

 

此外值得一提的是,在刚才所提的三方面中,我个人认为数据是最重要的,深度学习由数据驱动。在现实应用特别是公司项目中,如果能够较好地定义、收集及标注数据,那么项目就成功了70%。但是在学术圈,大家通常在标准的数据集(benchmark)上进行工作,所以网络结构(方法、模型)更受关注,这大概是学术圈过去五六年一直在做的一个主要东西。从2012年的ImageNet到今年的SENet,网络性能在不断提高,甚至今年ImageNet上top-5 error已经到了2.2%,所以经过多年的发展新模型结果的改进已趋向饱和。

 

最近两年学术圈的关注点集中在如何设计损失函数,有两个方面的工作。其一,随着数据及任务复杂度的提升,大家设计更加复杂的损失函数来解决更加复杂的问题,比如最近Mask R-CNN是在物体检测的框架上,进一步解决更加复杂的instance-level segmentation问题;其二,通过优化或者额外设计损失函数来提高模型的综合性能,可以添加额外的监督信息或者其他信息来训练模型,比如最近基于attention机制的模型通过额外的损失函数来提高模型的性能。

下面说说WebVision这个比赛。 我们参加CVPR 2017 WebVision竞赛的出发点是什么?首先,ImageNet比赛的性能已经趋向饱和,图片分类top-5错误率从2009年的30%降到了2017年的2.2%,我们想尝试一下更具有挑战性的任务,在没有人工标注的情况下训练高效的卷积神经网络,这属于弱监督学习的一个问题。此外,我们想尝试在现实世界中训练大规模的数据,并探索数据、模型结构、损失函数以及训练策略在训练模型过程中起的作用。最后,WebVision的数据场景跟目前多数AI公司用的数据非常相似。利用网络图片训练网络符合当前工业界的主流和趋势。以上是我们参加比赛的主要出发点。

Webvision比赛主要是由ETH(苏黎世联邦理工)、谷歌和CMU共同举办的,如图是举办者的一些信息。

WebVision数据集主要有Google和Flickr两个数据源。 主要是利用ImageNet 1000个类的文本信息从网站上爬数据,所以它的数据类别与ImageNet完全一样,为1000类别,由240万幅图片构成训练数据,比ImageNet的两倍还多,分别由5万张图片构成验证集和测试集(均带有人工标注)。

WebVision数据集主要有两个挑战。

 

第一个挑战,数据分布非常不平衡。如图横坐标代表1000个类别,纵坐标代表每个类别的图片数量。如图浅蓝色的平稳曲线是ImageNet的数据分布,每一个类别大概有1200张图片。而深蓝色曲线为WebVision数据分布,可以看出有的类别高达11000张而最少的小于400张图片,这种极度不平衡的分布对训练模型影响非常大。

第二个挑战,数据集含有大量错误标签。如图所示,每一行代表一个类别,从图中可以看出数据集中含有大量与类别不相关的图片,也就是所谓的噪声,这也是最主要的一个难点。

处理含有大量错误标签的算法通常有两种。第一种方法直接从有噪数据中学习,这里有两种思想,其一是设计一些对噪声鲁棒的算法,其二是让模型自动检测出干净样本和有噪样本,然后直接丢弃或者修正错误标签,再进行模型训练。这类方法有一个缺点,即很难从难训练样本 (hard training samples)中准确识别出错误标签的样本, 而这些hard samples 通常对提升模型的性能是非常重要的。 第二种方法主要采用半监督学习ÿ

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值