2023大数据挑战赛全国六强团队获奖经验+ppt分享(四)

本文分享了一支团队在全国大数据挑战赛中的经验,重点讲述了故障特征分析、时间序列异常检测、错误状态判断以及模型选择(XGBoost,LightGBM,随机森林等)和集成方法。团队强调了特征工程、缺失值处理和数据挖掘在比赛中的重要性。
摘要由CSDN通过智能技术生成

c262baabbf532aa8e46b76dadcd6b225.png

团队名称

陛下请移步至地下室

团队成员

张晓立(华东师范大学)

团队名次

全国第三名

赛题描述说明介绍

2023大数据挑战赛赛题说明+决赛评分标准回顾

参赛分享与收获

大赛提供了非常丰富有趣的数据,能把数据分析明白就能获得高分。首先分析metric数据中的故障特点,可以发现每一个tags都能组成一个长度为21的时间序列,因此metric中的故障主要表现为时间序列的异常。接下来分析trace的故障特点,从字段说明中可以知道status_code不等于200就代表故障。另外,span_time=end_time-start_time,即调用时长,调用时长过长或者过短都可能代表故障。timestamp的差分代表了前后两次调用结束时间的间隔,过长或过短都可能表示故障。特征工程的思路主要就是根据故障特点来进行特征构造。由于全是手工特征,很可能受到缺失值和分布偏移的问题导致线上线下的差距过大,所以缺失值过滤和训练集和测试集的同分布检验非常有必要,这个操作使得ab榜切换时没有shake太多分。

模型方面选择了4种模型,xgboost和lightgbm负责获得稳定高分,随机森林和极端随机树负责碰运气shake出更高的分数。集成方面选择了标准的stacking集成方法,为了增加不同模型预测结果的差异,还针对不同的模型使用了不同数量的特征。

所有模型的训练都采用了5折交叉验证,并且坚持trust your local cv的原则,没有过度拟合a榜。

由于时间关系很遗憾没有对数据进行更深入的挖掘,使用的模型也偏保守。从前排队伍的分享来看,对数据的挖掘还是比较重要的,有一些业务背景知识处理起数据会事半功倍。

最后感谢清华大学的邀请,让我有机会去北京参观,食宿方面准备得非常周到,必须点赞。

决赛答辩ppt分享

b972cf381026e4373c3ecab367172b1c.png

c924b437bd6f0ee0fabeeded7240e3ce.png

0fa4d9f24375d24677f78dc4016044ef.png

e75a638442c4ecd62f332ba06580f748.png

8052b01279b8ff5b29fcd2f64d7d4209.png

ec58502b27e7bff721862096c7010f76.png

0199a1bbbc31b9b68cf3648339213099.png

67a3c4728502e20f76924f8cd478a50a.png

b26604da80328c6d4c2cbdc19311fd5e.png

2ecda8cf25bc62570b8e330a33f9cab8.png

240989d5bb6b5ff188b6c7d407db25d3.png

ee45d0476837e0c733c9a5a253b192b9.png

893b3765bf583e3763f5bfc0744e94da.png

6d369c8c8404086099c85f1569fb825e.png

724bca5692bf0f8887fe19ec66f0460e.png

3b4419aea62464eefd8a23c0ce57f357.png

c3f3aaae33e8b80c5f2932c04a2f5cea.png

0ef51115b5272493662db5034246cf51.png

d2f47bfb122036bfab0968350b9933a0.png

ad5e97843ff58bfaa0e61efd1bc4e1ab.png

4dd48e42b8f896094ce65681200a1bac.png

b63e87aad95b7cc275dfaf8c09a7b8f6.png

3e23e25cbef3748bd2b770e17224d9eb.png

fbd88adf4f2a348e44f40fd9daf0a0e4.png

aaaf5c05ea2f654d2f116378e3cab269.png

编辑:文婧

校对:林亦霖

6320add1281f0dc896ddd75dad7fc716.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值