快讯|大数据挑战赛周周星评选获奖队伍公布,附赛事经验分享!(第三周)...

eb519920f279b0160aeca114875fabac.png

2024中国高校计算机大赛-大数据挑战赛初赛阶段周周星奖项评选环节开始啦,通过对参赛选手在线提交相关模型文件的系统自动评测得分(以7月17日18:00榜单排名为准),第三周周周星在校生队伍和在职队伍排名榜单已出炉,恭喜获奖的队伍!

目前榜单前三名的队伍在参赛中有哪些实战的经验呢,让我们一起听听他们的分享吧!

7e5fca74d79f8071af91e3e4132c06a7.gif

菜菜-获奖经验分享

大家好,很荣幸获得此次周周星,去年也是同一天太有缘了。目前榜上成绩是我们两个单模0.96融合的一个得分两个模型差异仅在encoder上面,还未对结果进行平滑的处理。

数据处理

在数据处理方面主要是对协变进行临近插值方法,原本是复制3份得到例如:

111 222 333 444 555 ....

经过我们临近插值在前后插入更近的时间节点得到:

112 223 334 445 556... n

这样操作使得协变量数据更平滑。

特征工程

也就是一些常规均值、方差、diff、roll等特征,在进入模型归一化与返回归一化也可以进行操作,采取类似patchTST的方式引入可学习参数进行归一与反归一化。

模型

模型层面使用encode-decode架构,具体decode可以参考itransfomer仓库里面的其他模型

https://github.com/thuml/iTransformer/blob/main/model/Transformer.py

e312e017d01efa1d1f60053e75d9e695.png 

99a3543191da594d7c65b783bbf518a7.png

Triks

加入label_len引导模型生成后续时刻,后期尝试自回归预测数据。

我们坐下来哭泣-获奖经验分享

大家好,我们是我们坐下来哭泣,接下来分享一些实验中观察到的现象和一些上分思路。

数据处理

我们没有筛除任何数据,也没有通过滑窗、差分、均值等方法构造新的特征,而是直接使用的原始数据和原始特征。官方baseline中利用repeat扩增ERA5数据,这里可以换成线性/非线性插值,插值能小幅提升分数,不同插值方案对分数的影响差距不大,简单的线性插值即可。

最初我们按9:1随机划分了train和val,但到目前为止,我们没有观察到val loss和A榜分数的任何关联,这主要是因为训练数据和测试数据之间的分布差异。目前,我们已经弃用了val set,直接进行全量训练。

模型和训练方案

我们现在使用的模型依然是baseline中的iTransformer,只是略微调大了层数和注意力头个数。目前观察到1MB左右的模型是比较合适的。

之前好几只队伍都提到了在iTransformer中加入LSTM。目前,我们尝试了四种加LSTM的方案,但均稳定掉分。我们怀疑加LSTM能提分可能是因为LSTM带来的额外参数量,而不是LSTM真的适用于iTransformer。

我们使用了Multi-task learning的训练策略,用一个模型同时预测wind和temp,实测Multi-tasking learning可以有效抑制过拟合,大幅提升分数。此外,还可以考虑使用混合损失进行训练,MSE loss主要关注序列中的低频分量,导致模型难以预测到一些波峰波谷。可以使用MSE和MAE的混合损失。

后处理

在推理时可以进行模型融合和TTA,基本都能稳定提分。这两个trick比较常见,这里不做过多分享。此外,可是加入一些基于先验知识的后处理,比如剔除一些极端值,对预测的序列做轻微的平滑等。

后续思路

我们准备在训练集上通过掩码预训练得到一个通用的backbone,之后基于此backbone进行微调,或者在backbone后加预测头进行预测。该比赛的主要难点是训练数据和测试数据之间较大的分布差异,可以考虑在推理时使用特征分布匹配等一些领域泛化中的方法。

Avid-获奖经验分享

Hello 各位,我是 Avid。这次是时隔 2 年第二次参加大数据挑战赛,没有参加过其他类似的比赛,所以经验相对少一些,主要是在跟随大佬的脚步学习。

我提交的方法主要是参考前面的周周星,包括 MMoE、修改 Decoder、加特征等,没有很原创的上分点,不过有些尝试过的地方可以分享下。

数据处理上,我按照上周周周星的分享,加了 diff 和 rolling,并且考虑到 covar 中前两个是风速的分量,所以还求了个矢量和(不知道有用没)。然后我觉得可能通道数量有点多,或许会引入噪声,所以我计划筛选出来一些相关性比较高的covar,于是尝试求每一个 station 中这些 covar 和 temp/wind 的 corr,然后筛选出来在大多数 station 中 corr 都比较高的 covar 作为筛选后的特征。但是提交之后的结果并不是很好,可能是数据挖掘没做到位,也可能 Attention 筛选的特征更好一些吧 <(≡w≡)>

在模型尝试上,水群的时候发现有大佬提到了 TimesNet 等模型,可能是模型参数什么的没有设置好,线上分数没有比 baseline 更好,于是就先搁置了。还有之前提到的时间信息,我最开始的时候尝试过把 iTransformer 对 var 作为 token 换成把 timestamp 作 token,然后用类似于 MLM 的方式预测(一个时间窗口看成一个句子,要预测的时间部分是[MASK]),但最近尝试不同模型融合的时候才发现不加这个模型分还高点,可能需要一些更合适的时间信息建模方法。Decoder 部分我是自己写的一个,加了 BiLSTM。

对于模型融合方面,我目前是采用了平均 K-Fold 结果,或者是不是也可以把这些不同的模型作为 experts 再套一个 MMoE?不过感觉这样太堆模型了,我还是准备再挖掘挖掘数据,毕竟男哥做了很长时间的 eda。

对于线下验证集的划分,我目前是用几个 station 的几个时间窗口,剩下的 station 用来训练,但线上线下分数还是差不少,感觉还不如直接看训练时的 loss。

其他的部分比如 ema 或者对抗训练都有用到,数据后处理还没有来得及尝试。

好在官方提供的 baseline 够顶以及群友互帮互助,不然对 tsf 一无所知的我就太难了。希望分享的内容可以对大家有所帮助~

f47523f109fac8d6c52a0873fe217ea1.png

本次大赛组委会精心为每周的周周星获奖者们准备了琳琅满目、极具民族特色的奖品大礼包,让我们先一睹为快!

4dde2d3351377cbd691daa438b5da114.png

efda30b96c351648220f4a3e170c064f.png

9ec9456126a90fa79c37bc4e6930f04a.png

上下滑动浏览

40023b7afe711c45c2ebf9a51be330e8.png

特别介绍:大赛主办方之一、决赛比赛地点预告

——鄂尔多斯欢迎你!

3fcaedb1da4631c53d0b9274a8a4feed.png

鄂尔多斯,这座融合了古老文明与现代科技的活力之城,以它独有的“暖城”魅力,张开怀抱欢迎来自世界各地的参赛者。作为内蒙古经济发展的领航者,鄂尔多斯在新能源、新材料、现代煤化工以及羊绒产业等领域树立了世界级的标杆,这里不仅拥有国家煤炭保障基地的坚实后盾,还有清洁电力供应、油气战略储备、氢能应用示范及储能实证的前沿探索,是国家能源安全的坚实“压舱石”。

在这片充满无限可能的土地上,大数据挑战赛不仅仅是对参赛者的历练,更是鄂尔多斯展现其魅力与潜力的窗口。大赛期间,除了紧张激烈的比赛,选手们还将有机会漫步在鄂尔多斯的蓝天白云下,体验草原文化的民族特色,感受生态与人文的和谐共生,见证这座城市在创新驱动下的日新月异。

b4284231c2966dee39edc9200838f418.png

0131572fc9ded91b7dbf3ccf009c7b83.png

目前,大赛报名已截止。初赛阶段采用 A/B 榜形式,成绩以 7月23日产生的B 榜最优成绩为准。初赛结束后,排名前70名的参赛队伍以及排名在71-110之间前30支学生队伍将进入复赛,期待同学们在复赛的精彩表现!

每一次努力都值得被看见,每一份才华都值得被赞赏。让我们一起,用代码书写梦想,用数据描绘未来!

d9cdba77e2a8f445433bdfe3a1609f0d.png

欢迎了解更多(数据派THU菜单栏-关于我们-大赛入口)

• 大赛官网:http://nercbds.tsinghua.edu.cn/bdc/

• 大赛小程序:可赛

• 大赛邮箱:data@tsinghua.edu.cn

• 大赛 QQ 群:762146461 / 901317172

点击阅读原文,观看大赛启动会直播回顾

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

16c3762f62b5d873cb589c8e01b4b0e4.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值