机缘巧合的情况下,知道了kaggle的Riiid的比赛,这是一个关于分类或者也可以理解为预测的比赛吧,就是针对学生是否可以正确回答问题进行预测。
比赛官网:https://www.kaggle.com/c/riiid-test-answer-prediction
1.赛题介绍
1.1赛题背景
Riiid AIEd挑战2020
获奖团队将被邀请在2021年2月举行的AAAI-2021人工智能教育研讨会上展示他们的模型——用人工智能想象后乔维德教育。欢迎所有参赛者向研讨会提交他们的报告。
回想一下你最喜欢的老师。他们激励和激励你去学习。他们知道你的长处和短处。他们教的课程是基于你的能力。例如,在学习微积分之前,老师会确保你理解代数。然而,许多学生无法获得个性化学习。在一个充满信息的世界里,像你这样的数据科学家可以提供帮助。机器学习可以为世界各地的年轻人提供一条通往成功的道路,我们邀请您参与这项任务。
2018年,有2.6亿儿童没有上学。与此同时,超过一半的年轻学生没有达到最低的阅读和数学标准。当COVID-19迫使大多数国家暂时关闭学校时,教育已经陷入困境。这进一步推迟了学习机会和智力发展。每个国家的股权差距都可能扩大。我们需要从出勤率、参与度和个性化关注等方面重新思考当前的教育体系。
Riiid Labs是一家为教育市场提供创造性颠覆的人工智能解决方案提供商,它授权全球教育参与者重新思考利用人工智能学习的传统方式。怀着对教育机会均等的坚定信念,Riiid于2017年推出了一款基于深度学习算法的AI导师,吸引了超过100万名韩国学生。今年,该公司发布了EdNet,这是世界上最大的人工智能教育开放数据库,包含超过1亿个学生互动。
在这个竞赛中,你的挑战是创建“知识追踪”的算法,即随着时间推移对学生知识的建模。目标是准确预测学生在未来互动中的表现。您将使用Riiid的EdNet数据对您的机器学习技能进行配对。
你的创新算法将有助于应对全球教育挑战。如果成功的话,任何有互联网连接的学生都有可能享受到个性化学习体验的好处,无论他们住在哪里。在你们的参与下,我们可以为后COVID-19世界建立一个更好、更公平的教育模式。
1.2评价指标
在预测概率与观测目标之间的ROC曲线下,对提交的数据进行评估。
提交文件(这里与国内的比赛不同,是需要提交代码的!)
你必须直接从Kaggle内核提交。通过将您的队友添加为内核上的协作者,您可以与他们共享和编辑代码。
kernels环境会自动格式化并创建您在本次竞赛中提交的文件。不需要手动创建提交。
1.3提交要求
这是一场代码竞赛
参赛作品必须通过笔记本提交。请注意,本次比赛不需要在笔记本中进行培训。
为了在提交后激活“提交竞争”按钮,必须满足以下条件:
- CPU笔记本<=9小时运行时间
- GPU笔记本<=9小时运行时间
- TPU笔记本<=3小时运行时间
允许免费和公开的外部数据,包括预先培训的模型
提交文件必须命名提交.csv
有关如何提交的详细信息,请参阅代码竞争常见问题解答。
1.4本人对该比赛的一些看法
第一次参加kaggle的正式赛,之前注册后就提交了两个学习的比赛,一个是房间预测一个是泰坦尼克号的比赛,所以对于这个平台还不是很熟悉。
从开始了解这个比赛,到正式开始上手做,我花了几天的时间,由于本人的英语本身就比较菜吧,要理解一些特征的意思,通过翻译软件,慢慢的了解这个比赛的要求和需要做的事情。
在到后来需要自己写推断,跟国内的比赛有很大的不同,国内的比赛基本都是直接提交一个结果文件,但是这个比赛需要你提交的是你的代码文件,而且实现你是看不到需要预测的测试集的,官方通过一个接口把测试集给你,通过你的编写的代码,在提交后,官方在进行预测,所以这块确实比较让人头疼!
就到现在,其实对于有些预测集特征的构造还是比较迷糊的,害。如果你也在参加这个比赛,我们可以一起交流一下!
2赛题的数据介绍
这个赛题一共给了三个表,train.csv,questions.csv还有一个lectures.csv,每个文件中都有一些字段,不同的字段代表了不同的含义。
这里我整理了一个关于字段的梳理图
3.赛题的baseline
其实在比赛的notebook那里可以看到很多人分享的baseline,不过目前分享的最高的baseline是0.781,这个分数还是比较低的,到不了铜牌,害,比赛的竞争还是很大的。
其中我之前参考别人的baseline也写了一个0.762的baseline,大家可以给个支持,帮忙点个赞,也可以一起学习,距离比赛结束还有不到两周的时间,距离组队结束时间还有6天!
4.总结
这个比赛给的train数据大概是1亿行左右,如果全部拿来做特征,只在kaggle的kernel是完全不行的,内存根本不够用,所以我当时也只是用来部分数据,不过看到他们的讨论说用全部数据和部分数据的差值可能在0.01左右吧,害,对于我们这种没有资源的人来说,只能白嫖官方的资源,凑活还能用吧,但是最近几天尝试了很多特征,效果都不好,上分困难啊,首次参赛,可能要与奖牌无缘了…,再接再厉吧,学点经验,提升自己分析的能力!
记录时间:2020年12月26日