日志特征选择汇总(基于天池比赛)

最新推荐文章于 2025-05-18 20:17:36 发布

Mark_Aussie

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量743

点赞数 1

分类专栏： AIOps 文章标签：机器学习

本文链接：https://blog.csdn.net/MarkAustralia/article/details/125499432

版权

32 篇文章

订阅专栏

本文基于第三届阿里云磐久智维算法大赛，分析故障工单与日志数据。主要步骤包括数据预处理、特征工程、特征选择、模型训练和模型融合。通过TF - IDF编码、伪标签技术等方法，对日志数据进行处理和分析，最终将CatBoost与LightGBM预测结果加权融合得到最终预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据是基于第三届阿里云磐久智维算法大赛，

本赛题提供了故障工单与日志数据，分析msg的结构，根据|可以将其分解。根据实际的业务场景，在故障发生的前后5/10/15/30分钟或更久产生的日志信息，都可能与此故障有关。

sn代表服务器序列号，故障工单中共有13700+个sn；

服务器型号server_model和服务器序列号sn是一对多的关系；

将msg经过TF-IDF编码，输入到线性模型中，使用eli5得出每个类别下，msg单词的贡献程度，权重越高表示区分该类别的贡献越大。

主要步骤：数据预处理，特征工程，特征选择，模型训练，模型融合。

根据实际业务场景，故障发生之前可能会有预警日志产生，故障发生之后可能会产生日志风暴，对每一条故障工单数据，按照不同的时间切分构造新的日志数据，按照日志聚合之后构造统计特征。

特征工程：

时间差特征

反映故障日志与正常日志发生的间隔。特征构造方法：

关键词特征

关键词对各类别的影响。构造关键词特征首先要找到关键词，两种方法确定关键词：

统计特征：根据类别特征分组构造统计特征，使类别特征隐藏的信息充分暴露出来。

W2V特征：反映msg的语义信息

TFIDF特征

根据 fault_id(sn+fault_time)分组，根据fault_id将msg拼接作为一个序列，提取TF-IDF特征。

特征选择

特征选择环节主要是使用对抗验证进行特征选择，将训练集与测试集删除label重新打标，训练集为1，测试集为0，数据集合并进行模型训练计算AUC，如果AUC大于设定好的阈值，将特征重要性最高的特征删除，重新训练模型。直至AUC小于阈值。

在模型训练的时候，使用伪标签技术，具体是将A、B榜测试集的预测结果，选取置信度>0.85的样本作为可信样本，加入到训练集中，达到增大样本量的目的。

参考：