数据竞赛综述

数据竞赛综述

    随着大数据时代的到来,海量的数据驱动着机器学习的高速发展,构建相应的测试评估体系势在必行。数据建模和分析挑战赛主要由以下几个要素构成:
* 数据集:一般包括训练集、验证集和测试集。其中训练集和验证集是公开的,包含原始图像和标注信息(物体的边框坐标、类别标签),分别用于模型训练和模型选择。测试集不对外公布,用于评估算法的精度。
* 开发者工具/文档(可选):辅助参赛者使用数据集,主要有加载/解析图像标注信息、评估结果精度等功能。
* 评估指标:针对不同任务选择评估指标,对模型的结果精度、泛化性能、鲁棒性以及速度性能进行评估。
* 评测平台:用于支持评估工作的系统,一般搭建评估服务器响应、评估参赛者提交的结果。在一些线下竞赛中,也有提供专门的测试评估软件支持评测工作。
    数据建模和分析挑战赛的比赛流程也基本一致,主要有:注册报名—公布数据集、评估指标—参赛者训练模型—提交结果—测评平台评估结果—最终确定排名。
目前数据建模和分析挑战赛的构成因素和比赛流程基本相近,按照竞赛的目的不同,可以将它们分为面向通用领域的公共竞赛和面型特定问题的专业型竞赛,它们的具体表现形式有所不同。

面向通用领域的公共竞赛

    此类竞赛的典型代表有基于ImageNet数据集的大规模视觉识别挑战赛(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)、Pascal视觉目标分类挑战赛(Pascal VOC Challenges)等。这类数据集的目的是比较、分析某领域最先进的算法。为了增强数据集的代表性和权威性,它们的规模一般很大,标签类别较多。组织者还会举办挑战赛、会议的workshop提升数据集的影响力。例如ILSVRC主要由两部分构成:公开的数据集ImageNet,以及每年举办的竞赛和对应的workshop。ImageNet是一个图像物体分类和检测的数据集,包含1000种物体类别共计1千多万张图像。ILSVRC挑战赛每年举办一次,参赛者需要按照输入规范读取数据,利用ImageNet数据集训练模型,实现图像分类、检测任务,并将结果提交到官方指定的评估测试服务器上。测评平台根据评估指标计算结果的精度,按照结果精度进行排名。比赛最终评选出不同任务的获胜团队,并将文章发表到相应的workshop。ILSVRC只考虑模型的精度,不对算法的实现方法与平台做要求,也不评估模型的鲁棒性、速度性能。

面向特定领域的竞赛

    此外,还有一些数据集规模较小、面向特定领域的竞赛。这类比赛的数据针对特定领域、特定任务,形式更加灵活。ICPR MITOS-ATYPIA challenge是一个基于乳腺癌组织学图像的细胞有丝分裂检测竞赛,它是ICPR(International Conference on Pattern Recognition)会议举办的竞赛,旨在通过检测异常的有丝分裂间接地检测乳腺癌细胞。ISPRS(International Society for Photogrammetry and Remote Sensing)Test Project提供遥感图像作为标准数据集。参赛者需要申请获取数据,训练模型解决城市用地分类、2D语义分割等问题,然后提交规定格式的结果文件以供评测。
    在面向特定领域的数据竞赛中,还有一部分比赛致力于打造数据建模和分析竞赛的综合平台。Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,数据挖掘专家可在其上进行竞赛以产生最好的模型。Kaggle采用众包模式帮助比赛发起者寻找针对特定问题的最合适模型,从而推动数据科学的高速发展。Kaggle中组织一场竞赛的过程如下:

1.竞赛主持人准备数据和问题的描述。Kaggle对这一过程以及竞赛的建构、数据的匿名化以及集成最终获胜的模型提供咨询服务。
2. 参与者通过不同的方法进行实验,相互竞赛以获得最优的模型。对于大多数的参与者,他们的提交会根据预测精度被立即评分,并在实时的积分榜上显示。
3. 在截止时间过后,竞赛主持人为“全球性的,永久性的,不可撤销和免版税地使用获奖作品”支付奖金。
除了公开竞赛以外,Kaggle还向活跃参与者提供私下的比赛,以及为大学团体提供Kaggle-in-Class项目。
    此外,由工业界发起的数据建模分析竞赛也逐渐涌现。Netflix公开用户影评数据集,设立百万美元大奖征集能把现有推荐系统的准确率提高10%电影推荐系统算法。阿里巴巴集团结合阿里云平台启动天池大数据竞赛,通过数据开放推动大数据的人才培养和产学研用。与其他竞赛只需提交预测结果不同,天池竞赛要求参赛者使用阿里的大数据开发平台“御膳房”进行算法的开发。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值