团队名称
元胞自动机
团队成员
孙海鑫(苏州大学)
团队名次
全国第二名
赛题描述说明介绍
报名 | 2024中国高校计算机大赛——大数据挑战赛报名启动!
关注微信公众号“数据派THU”,后台回复“20240615”,即可获取“赛题描述”
参赛分享与收获
作为一个单人队伍,同时也是一个时间序列任务的新手,本人深切感受到本次比赛赛题对新手十分友好:1.赛题任务是时间序列预测任务,十分容易理解;2.数据的结构性非常好,数据特征易于理解;3.baseline模型强大,不需要过多尝试其他模型;4.协变量多,可以基于此进行充分的特征工程;5.平台优秀,竞赛平台提供服务器用于结果复现,同时技术人员十分尽职尽责;6.组织优秀,组委会尽力听取选手对于赛制的合理建议并做出改善;7.友好交流,初赛期间设置“周周星”经验分享帮助新手快速开始竞赛。
正所谓以赛促学,本次比赛我受益颇多:在每天不断搜寻资料、与大模型对话、对自己各种想法进行实验的过程中,我的专业知识得到了飞速的增长,同时在选手群中和其他选手交流也使我受益匪浅;在决赛万众瞩目的舞台上,我受到了评委们的认可,这让我更加自信,对自己未来的道路规划也愈发清晰。
在经验分享方面,我有三个感悟想与大家分享。
第一,这是比赛而不是科学研究,我们的出发点不应是某个策略是否创新,而是它能否提分,因此我们要抓住赛题和数据的特点,为这种特点专门制定对策:在本次比赛中,测试集和训练集的数据分布差异极大,常规交叉验证完全失效,十分考验模型的泛化能力。我抓住了赛题数据这一特点,使用先聚类再划分验证集的方法进行交叉验证,尽最大可能检验了模型的泛化能力,从而保证调出的参数和特征都是有效的。
第二,首先,我很认同“特征工程决定上限,模型决定是否能达到上限”,但是我觉得,在很多下游任务中,在进行特征工程之前,模型可能还远远没达到那个上限,与其费劲心思特征工程,不如先“躺下来”调参和集成,调得差不多了再进行特征工程。
第三,在一切尚未尘埃落定之前,即使身处最后的境地,也不要放弃。或许,这正是炼丹之神对你耐心的考验呢?
最后,感谢比赛的主办方、承办方、协办方和平台提供的宝贵的比赛机会,感谢评委老师们、清华大学的老师们以及我的父母对我的大力支持与肯定。
决赛答辩ppt分享
编辑:文婧
校对:丁玺茗
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU