天池AI大赛 智能制造预测赛题

一、赛题与要求的简单介绍   (多特征少样本问题)    

      本次比赛提供的是生产线上不同工序的生产数据(具体代表什么含义未可知),通过这些数据构建特征,设计模型,预测与之对应的生产数值。评判标准采用MSE,计算单个样本预测值与真实值的差距,再对所有样本进行MSE求和,最后取平均作为评判标准。

二、数据描述

     数据包括ID列、工具列和数据列,他们有自己的命名格式。数据从形式上主要按照工具列标识分为十三组。每两个工具列之间的数据为一道工序。因为数据列与特征列Y经过脱敏处理,所以具体含义也无从知晓。每一数据列的并不是按照明显的时间顺序排列的,所以工序内数据列的顺序为随机的。部分数据存在大量缺失值,并且也有很多列仅有一个值,同时也有很多列完全重复。

    在每个列内,数据的分布很明显受到工具的影响。在部分数据列中,缺失值已经被0或者其他的异常值填充。

三、数据预处理

1、分工序。对整个数据集按照工具列分为不同工序。基于数值观测,将chamber id列与tool列合并,并将operation_id

和chamber作为工具列进行工具划分。



2、数据清洗

将单一值列、空值列、重复列删除

3、将8位、16位等日期格式转换为从2016.1.1以来的秒数

4、将空白值(0

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值