一、赛题与要求的简单介绍 (多特征少样本问题)
本次比赛提供的是生产线上不同工序的生产数据(具体代表什么含义未可知),通过这些数据构建特征,设计模型,预测与之对应的生产数值。评判标准采用MSE,计算单个样本预测值与真实值的差距,再对所有样本进行MSE求和,最后取平均作为评判标准。
二、数据描述
数据包括ID列、工具列和数据列,他们有自己的命名格式。数据从形式上主要按照工具列标识分为十三组。每两个工具列之间的数据为一道工序。因为数据列与特征列Y经过脱敏处理,所以具体含义也无从知晓。每一数据列的并不是按照明显的时间顺序排列的,所以工序内数据列的顺序为随机的。部分数据存在大量缺失值,并且也有很多列仅有一个值,同时也有很多列完全重复。
在每个列内,数据的分布很明显受到工具的影响。在部分数据列中,缺失值已经被0或者其他的异常值填充。
三、数据预处理
1、分工序。对整个数据集按照工具列分为不同工序。基于数值观测,将chamber id列与tool列合并,并将operation_id
和chamber作为工具列进行工具划分。
2、数据清洗
将单一值列、空值列、重复列删除
3、将8位、16位等日期格式转换为从2016.1.1以来的秒数
4、将空白值(0