1 题目背景
2 参考资料
3 执行步骤
1.题目背景
https://www.kaggle.com/c/inclusive-images-challenge
时间
2018年10月29日-截止日期。加入或合并团队的最后一天。
* 阶段一:5.9-11.5 模型上传
* 阶段二:11.6-11.12新的测试集
* 阶段三:11.13-11.26获奖者的解决方案
* 12.3-12.8号开会
比赛要求
任务
开发一种模型,即使在评估它们的数据是从与训练它们的数据非常不同的一组地理位置提取的情况下,这种模型也能很好地完成图像分类任务。
数据集
训练集(512g,分为15个,每一个28-46g左右)
验证集(12g)
测试集(36g)
可以使用Google Cloud Bucket 平台
问答
这次比赛的目标是什么?
这次竞赛的主要目的是鼓励能够在具有挑战性的分布偏斜领域做得好的新的研究和方法。我们希望,突出这一关键问题领域能有助于促进研究界的进一步进展,并在公开、严格的评估中提供对其结果的有用验证。
分配歪斜的重要性是什么?
传统有监督机器学习的一个关键假设是,测试集是从与训练集相同的分布中抽取的。然而,在现实世界系统中,通常现实情况是,训练数据的收集方式不代表部署后将与系统交互的个体的完全多样性。因此,模型被应用于与它们的训练分布非常不同的数据。事实上,从地理的角度来看,一个地方的分布总是不同于全球的分布。开发对分布偏差鲁棒的模型和方法是帮助开发在真实世界环境中可能更具包容性和更公平的模型的一种方法。
为什么竞争被称为包容性图像?
在这个竞争中的挑战数据集提供了压力测试的地理包容性的训练模型。比起那些专门处理大部分来自北美和西欧的图像的模型,那些能够更好地对世界各地理区域的数据进行预测的模型在这次竞争中可能会做得更好。因此,我们用下面概述的“压力测试”的概念来构架这个竞赛,其中某些在训练数据中表现不那么好的未公开的地理位置在挑战数据集中表现得更好。
为什么我们不需要更多的数据来解决这个问题呢?
对于真实世界的系统,收集更多的数据以尽可能地填充数据空间中未得到充分表示的部分绝对是最佳实践。(有关这方面的更多信息,请参阅Google关于负责任AI的最佳实践的建议。)在本次竞争中,我们主要关注当由于某种原因无法收集此类数据时所构成的研究挑战。当数据空间的某些区域在我们的当前数据收集方法中很少被表示或完全不可访问时,存在这种情况的一个重要场景。
这对“压力测试”意味着什么?
一个压力测试的想法是,我们给一个算法一个困难的挑战,看看它是否能很好地处理它。如果算法运行得不好,则表明它对于与压力测试设置类似的设置可能不太好——在本例中,是涉及强分布偏斜的设置。如果一个算法在压力测试中做得很好,这是一个令人鼓舞的结果,但是我们警告说,这种竞争只是许多可能的压力测试中的一个测试。理想情况下,研究人员在对它们的可靠性作出结论之前,对它们的算法进行广泛的应力测试。
算法的公平性和包容性难道不只是做算法上的改变吗?
当然。深入解决这些问题不仅仅是一个机器学习问题或一个技术问题。这方面最好的工作包括广泛的学科、人和观点。(对于更多的背景,请参阅谷歌对最佳人工智能的最佳实践的建议)。为了这个竞争的目的,我们将注意力集中在关注分布歪斜和鼓励研究的问题上,这可以帮助解决这个关键问题领域,作为帮助AdvANC的多种方式之一。这个领域。但我们也预期,竞争的结果可能会成为突出的领域,其中算法的变化本身可能仍然不足。
为什么竞争对手不允许用额外的图像或其他数据源来扩充他们的数据集?
作为一个社区,我们已经有了很好的理解,只要有可能,添加额外的数据会有很大帮助。我们希望确保这一竞争将研究的注意力集中在更困难的设置中,在给定的设置中收集完全代表性的数据是不可行的。例如,由于隐私原因,或者由于在当前数据收集方法下很难访问某些示例,这可能会发生。
这场比赛的结果可能如何影响除图像以外的数据类型?
当我们开始用图像进行这一努力时,我们希望能在这个竞争中取得好成绩的算法方法。
这场比赛的结果可能如何影响除图像以外的数据类型?
当我们开始这项工作与图像开始,我们希望算法方法,在这个竞争上做得很好,可以适用于其他领域以及。例如,任何新的目标函数、正则化方法或合并多模态数据的方法(诸如本竞赛中允许的维基百科侧边信息)可以广泛地应用于图像数据之外。
在所有方面,获胜的解决方案是否可能是绝对公平的?
不一定。如果一个方法在最终的测试集上表现良好,该测试集是从未公开的地理位置的混合中抽取的,那么这个结果很可能不是由于偶然或过拟合。这并不意味着这种方法在所有方面都是绝对公平的。首先,关于公平的定义有很多种,其中一些可能彼此紧张。但更重要的是,做好任何一次压力测试远不是一个完整的公平证书。在理想的情况下,研究人员在得出关于其可靠性的结论之前,要在广泛的应力测试中测试他们的方法。
问:两阶段设计是如何工作的?
比赛将分两个阶段进行。在阶段1中,竞争者将在OpenImages数据集的子集(如竞争数据页所指定的)上训练他们的模型,OpenImages数据集是广泛使用的用于图像分类的公共基准数据集。在此期间,竞争对手将有机会进入挑战阶段1数据集,并可以在公共排行榜上竞争。竞争对手将在第1阶段结束时上传他们的最终模型。在第2阶段,竞争对手将在挑战阶段2数据集上运行他们的最终模型。两个挑战数据集都具有未显示和不同的地理分布(参见描述页的图解以获得说明)。以这种方式,模型是压力测试他们的操作能力,包括超过他们的训练数据。
数据的说明
- stage_1_attributions.csv - 每个图像的分值
- stage_1_sample_submission.csv - 提交结果的格式例子
- stage_1_test_images.zip - 测试集 原始图像已经在 CC-BY 4.0 许可证下进行分布.
- train_bounding_boxes.csv - 边界框训练集
评价标准
对于这个竞争,每个图像都有多个地面实况标签。我们将使用平均F2得分来测量算法质量。度量也被称为基于实例的F得分,β为2。
F2度量权值比精确度具有更高的召回率,但是好的识别算法仍然可以平衡精度和召回率。中等性能良好的两个将在一个非常好的性能和另一方面表现不佳的青睐。
提交文件
对于数据集中的每个图像,提交文件应该包含两列:图像ID和预测标签。标签应该是一个分隔空间的列表。请注意,如果算法不能预测任何内容,则列可以留空。文件必须有一个页眉,看起来应该如下:
image_id,labels
2b2b327132556c767a736b3d,/m/0sgh53y /m/0g4cd0
2b2b394755692f303963553d,/m/0sgh70d /m/0g44ag
etc
2.参考资料
这个比赛的问题在于训练数据与测试数据在不同的地理环境下,这样就要求算法有非常高的鲁棒性,对于地理位置偏差有所判断
有关资料:
有关介绍
类似比赛:暂无
思路:暂无