Datawhale干货
作者:Jason.Q 中山大学;黑桃,Datawhale成员
赛题描述
第三届阿里云磐久智维算法大赛:本次比赛要求选手基于故障工单与系统日志数据构建多分类模型,要求能够快速高效的定位出故障类型。
赛事官方地址:
https://tianchi.aliyun.com/competition/entrance/531947/information
项目代码开源地址:
https://github.com/yz-intelligence/AI-Competition/blob/main/3rd_PanJiu_AIOps_Competition/README.md
亚军方案答辩PPT和打包数据可在Datawhale公众号后台回复 黑桃 下载
评价指标
本次采用的评价指标是加权的F1-Score
,对类别0和类别1赋予了更大的权重。
赛题数据
本赛题提供了故障工单与日志数据,具体数据如下图所示。通过初步分析msg的结构,根据|
可以将其分解。根据实际的业务场景,我们认为在故障发生的前后5/10/15/30分钟或更久,所产生的日志信息,都可能与此故障有关。
数据分析
标签分布
通过分析标签分布,类别0和类别1表示CPU相关故障类别0占比最少,只有9%