快讯|大数据挑战赛周周星(第三周)榜单发榜啦,经验分享奉上!

cf32579d4ba8061e14ead2847579e3fb.png

7月17日,中国高校计算机大赛-大数据挑战赛进入到初赛阶段最后一周周周星的奖项评选环节,通过对参赛选手在线提交结果的实时测评(以17日12点的Public榜成绩为准),第三周周周星成绩最优的在校生和在职队伍名单出炉(见下图),恭喜获奖的两支队伍!

19f1bdd98811048deb14c878bc7564b4.png

获奖的两支队伍对大赛有哪些实战的经验呢,让我们一起听听他们的分享吧!

林队获奖经验分享

赛题理解

本赛题提供了三个数据源,我们的方案主要使用到的是trace和log,metric暂时没有使用(尝试过效果不佳)。前期只对trace进行了简单的挖掘工作,而把重心放在了log表,后期对trace更加深入挖掘,分数有了进一步提升。现在来看,单使用trace表和一些简单的log表特征线上可以达到0.85+。

特征工程

Trace:延用了上几次周周星分享的一些统计特征mean/std/ptp等,通过数据观察发现endtime-starttime存在大量为0,1,2等数据,也可以进行一些细化统计。同时,用ip、service进行分组,组内对timestamp进行diff后做一些统计的特征。其次,可以把这些类别特征按时间戳排序构建出一个序列list,使用w2v和tfidf等技术(可以学习2021年微信大数据开源方案对序列的处理),可以83->84+。

Log:与上一周周周星分享的类似,去提取message中的各类关键词出现的频率和个数等,并尝试使用w2v对语料进行训练,跑了很久发现效果不稳定(跑了两次 一次分数没怎么变,一次上了0.003 是抖的 不太清楚,并且存在无法复现的情况)。后续可以尝试使用bert等。

Metric:存在量纲不统一,同时方向可能也不统一,我们尝试过归一化后聚类,线上只有所略微提升(可能抖上去的)。这张表暂时不知道怎么使用…

模型选择

使用的是大佬分享的baseline,ovr加lgb。尝试过nn但是线上不高只有0.825+。使用的是tabnet,gap不大但是也提升不上去。

特征筛选

使用相关性对特征筛选,我们这边特征间相关性大于0.8以上的只有20来个,删了线上有0.001提升。

总的来说,还是一些很常见普通的做法,上86仍然需要做加法。

去网吧里偷耳机队获奖经验分享

赛题理解

跟大部分选手一样,本赛题所提供的三个数据源,只使用到的是trace和log,metric暂时没有使用。

前期周星星们分享的内容很有价值,基本也是复现他们所提到的特征和方法。

特征工程

Trace:除了大多数选手提到诸如endtime-starttime、start_time diff、timestamp diff,会从id和service、host、endpoint进行交叉统计,同时构建了service、host、endpoint统计结果的与全局id统计结果的相关特征,比如host_timestamp_max/timestamp_max。

Log:与trace类似,从全局和交叉进行统计,并构建相关特征。尝试了tfidf+svd、word2vec暂未取得效果。

Metric:为了避免受到实际值大小的影响,故尝试了很多占比相关特征,均无效。

模型选择

目前使用的是ovr加catboost,暂未尝试nn。

特征筛选

构建了大概1500维特征,然后进行特征过滤(nunique为1、缺失率大于0.95、相关性大于0.98)后剩1000维左右特征,线上分数提升0.005+。

def correlation(data, threshold):
    col_corr = []
    corr_matrix = data.corr()
    for i in range(len(corr_matrix)):
        for j in range(i):
            if abs(corr_matrix.iloc[i,j]) > threshold:
                colname = corr_matrix.columns[i]
                col_corr.append(colname)
    return list(set(col_corr))

更多上分细节可以参考《机器学习算法竞赛实战》特征提取部分。

大赛组委会为每周的周周星获奖者提供了精美实用的礼品,包括清华活力校园时尚印花T恤、机械革命 耀·C510三模无线游戏手柄、罗技(Logitech)无线蓝牙超薄静音轻音键盘、罗技(Logitech)无线蓝牙鼠标。别再犹豫啦,快叫上你的小伙伴一起角逐吧!

28b251a59c09f3661a342f75264443e8.png

经过一周的优化调整,本周榜单里不断涌现出新的参赛队伍,报名也进入了倒计时阶段,复赛继续加油!参赛选手可以继续从指定网站下载比赛的训练数据和测试数据,并在线提交结果,报名截止至7月24日12:00。

dbde3a6b9ec473ce4bc1db15c631de6f.png

欢迎了解更多(数据派THU菜单栏-大赛入口)

• 大赛官网:http://nercbds.tsinghua.edu.cn/bdc/

• 大赛小程序:可赛

• 大赛邮箱:data@tsinghua.edu.cn

• 大赛 QQ 群:762146461 / 901317172


往期周周星经验分享回顾

2c491ac3d61e383313f33b0256f9cace.jpeg

d28415950011c9da027dffcbefb6c9df.jpeg

7c8e2eaf99ecd85e07f51d92aecd3792.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值