天池AI大赛 智能制造预测赛题

标签: 天池AI
20人阅读 评论(0) 收藏 举报
分类:

一、赛题与要求的简单介绍   (多特征少样本问题)    

      本次比赛提供的是生产线上不同工序的生产数据(具体代表什么含义未可知),通过这些数据构建特征,设计模型,预测与之对应的生产数值。评判标准采用MSE,计算单个样本预测值与真实值的差距,再对所有样本进行MSE求和,最后取平均作为评判标准。

二、数据描述

     数据包括ID列、工具列和数据列,他们有自己的命名格式。数据从形式上主要按照工具列标识分为十三组。每两个工具列之间的数据为一道工序。因为数据列与特征列Y经过脱敏处理,所以具体含义也无从知晓。每一数据列的并不是按照明显的时间顺序排列的,所以工序内数据列的顺序为随机的。部分数据存在大量缺失值,并且也有很多列仅有一个值,同时也有很多列完全重复。

    在每个列内,数据的分布很明显受到工具的影响。在部分数据列中,缺失值已经被0或者其他的异常值填充。

三、数据预处理

1、分工序。对整个数据集按照工具列分为不同工序。基于数值观测,将chamber id列与tool列合并,并将operation_id

和chamber作为工具列进行工具划分。



2、数据清洗

将单一值列、空值列、重复列删除

3、将8位、16位等日期格式转换为从2016.1.1以来的秒数

4、将空白值(0与NA)填充为同一列其他非空值得平均值。

四、特征构建

1、将计算单因子和双因子交互列并纳入备选特征;

(1)X为特征原始值,Xerr为原始值与该列平均值之差,取绝对值得到Xerrabs

(2)对双因子(设为X和Y)建立X+Y,X-Y,X/Y、Y/X的特征向量。


2、备选特征筛选

既然一列能产出三个特征,一对列能产生十五个双因子特征,那么会产生很多备选特征。所以需要对特征进行最初的筛选。采用的是计算各列与特征值Value的pearson相关性,选取相关性高的进行保存。

3、模型选取尝试过SVR、LASSO、GBDT以及模型融合等。最终用了xgboost。

查看评论

天池工业AI大赛-智能制造质量预测

竞赛笔记ID466记录丢弃750X1452,750X1350,750X1442,750X717,750X718,420X186 这几个字段去掉代表TOOL_ID后面的一些列一直到下一个TOOL_ID,...
  • dataastron
  • dataastron
  • 2018-01-13 00:13:25
  • 399

比赛三两事-天池工业AI大赛-智能制造质量预测-初赛

第一次参加阿里云的天池比赛,一些有趣的事情分享给大家。 1. 不到最后,都不知道自己的优秀都是蒙的。 天池比赛的测试集一般分为AB两组,其中A组测试集持续时间很长,可能有一个月,每天一次答题机会,...
  • jinghongluexia
  • jinghongluexia
  • 2018-01-20 12:57:34
  • 447

天池工业AI大赛-智能制造质量预测 比赛历程和技术方案总结复赛48名

一、参赛 研二导师的项目摸鱼结束后,思考了一下出路,项目和机器学习相关,重在特征提取的传统算法研究和目标识别的多样算法融合,简单说就是理论,MATLAB,推导三要素组成。来年就要面对就业,没...
  • juanmengmu2595
  • juanmengmu2595
  • 2018-01-31 10:23:19
  • 356

AI大赛-电力预测

本文章从三个部分  1)赛题分析  2)解题思路  3)比赛总结 来分析比赛,本文假设读者了解此次比赛且对比赛数据有着一定得认知。求大家拍砖,积极交流!...
  • xinzhi8
  • xinzhi8
  • 2017-08-15 17:07:18
  • 808

天池智能工业大赛大佬们的思路(需要再看)

打酱油参加了天池工业AI大赛1,当然没拿到奖,看决赛答辩直播时见识到了大佬们的各种思路,真是大开眼界。记录一下,留给以后参考。 1. 特征构造 这个是相当重要的 第一名那个女孩子并没有用什...
  • hasy_qiu
  • hasy_qiu
  • 2018-02-07 10:57:45
  • 102

学习如何做Kaggle、天池等数据预测比赛

参考文章 点击打开链接   https://segmentfault.com/a/1190000012084849 遇到的问题 一、用sklearn做单机特征工程 当导入 from ...
  • u012458963
  • u012458963
  • 2018-02-03 16:29:43
  • 165

【手把手教你玩天池新人挑战赛】新浪微博互动预测100行代码

由于第二赛季的时候去做淘宝穿衣搭配了,所以第二赛季成绩不太好。 主要讲下第一赛季是怎么用歪路子做到第6名。换数据之前是第4名。 首先我们先看一下评估指标 评估指标 我们希望参赛队对于每一条博文预...
  • Bryan__
  • Bryan__
  • 2015-12-08 16:19:50
  • 7864

天池新人赛之新浪微博互动预测

天池新人赛之新浪微博互动预测比赛思路。
  • jingyi130705008
  • jingyi130705008
  • 2017-10-17 10:11:29
  • 1408
    个人资料
    持之以恒
    等级:
    访问量: 558
    积分: 241
    排名: 31万+
    文章存档