天池工业Al大赛-智能制造质量预测

赛题

产品特性预测

赛题背景:

半导体产业是一个信息化程度高的产业。高度的信息化给数据分析创造了可能性。基于数据的分析可以帮助半导体产业更好的利用生产信息,提高产品质量。
现有的解决方案是,生产机器生产完成后,对产品质量做非全面的抽测,进行产品质量检核。这往往会出现以下状况,一是不能即时的知道质量的好坏,当发现质量不佳的产品时,要修正通常都为时以晚,二是在没有办法全面抽测的状况下,存在很大漏检的风险。
在机器学习,人工智能快速发展的今天,我们希望着由机器生产参数去预测产品的质量,来达到生产结果即时性以及全面性。更进一步的,可基于预先知道的结果,去做对应的决策及应变,对客户负责,也对制造生产更加敏感。

痛点与挑战:

1)TFT-LCD(薄膜晶体管液晶显示器)的生产过程较为复杂,包含几百道以上的工序。每道工序都有可能会对产品的品质产生影响,故算法模型需要考虑的过程变量较多。
2)另外,这些变量的取值可能会存在异常(如测点仪表的波动导致、设备工况漂移等现象),模型需要足够稳定性和鲁棒性。
3)产线每天加工的玻璃基板数以万计,模型需要在满足较高的精准度前提下尽可能实时得到预测结果,这样才能给在实际生产中进行使用。

价值:

1)如果能够建立算法模型准确预测出特性值,便可以实现生产过程的实时监控和预警,提前发现当前工序的问题、避免问题流入到后道工序,减少生产资源浪费的同时也优化了产品良率。
2)基于预测模型得到的关键参数,工艺人员能够快速地针对那些电性表现不佳的产品进行问题溯源分析,重点分析和调整那些关键的影响因子,加快不良问题的处理、提高整体工艺水平。
3)该预测模型在部署后也可以用于减少特性检测相关的工序,能够节约检测资源并且对提升产线整体的产能有正面作用。

问题描述:

比赛提供了生产线上的数据,反应机台的温度,气体,液体流量,功率,制成时间等因子。通过这些因子,需要选手设计出模型,准确的预测与之相对应的特性数值。这是一个典型的回归预测问题。因为数据中可能存在异常等现象,比赛鼓励选手发挥想象力,创造力,去设计出智能的算法。初赛阶段将提供3个星期左右的数据,复赛阶段提供数据待定,决赛阶段需要选手给出因子的重要性排序或者分类,供评委参考并作为最终评判指标的一个考量。

评测指标:

在这里插入图片描述
在这里插入图片描述
本竞赛排行榜分A/B榜,A榜数据100条,B榜数据121条。最终线上成绩与排名以B榜成绩与排名为主(B榜重新排名,需要再提交答案,B榜成绩只在初赛最后两天公布)。

大赛项目介绍,参考阿里云的网址:https://tianchi.aliyun.com/competition/entrance/231633/introduction

数据

数据说明:

每条数据包含8029列字段。第一个字段为ID号码,最后一列为要预测的值Y。其余的数据为用于预测Y的变量X。这些变量一共由多道工序组成,字段的名字可以区分不同的工序,例如 210X1, 210X2。300X1,300X2。字段中的TOOL_ID或者Tool为每道工序使用的机台,如果是string类型,需要选手自行进行数字化转换,数据中存在缺失值。
初赛总计提供500条数据,复赛数据待定。
补充说明(12月26日更新):初赛和复赛A榜阶段结束后,将补充A榜答案,请选手注意更新下载!

选手提交答案格式为csv,共两列,第一列为ID号码,顺序一定要保持和给定的测试数据一样。第二列为预测的Y值。提交的CSV文件中不含header(列名)

IDY
ID7902.916614
ID7922.937837
ID7932.687872
ID7972.050846
数据文件说明:
1)训练.xlsx

用于训练模型的数据,包括列名。第一列为ID号码,不用做建模。最后一列为Y值。中间的变量为去预测Y的X值。

2)测试A.xlsx

A轮测试数据,和训练.xlsx类似,除了最后一列的Y值被抹去。

3)测试B.xlsx

B轮测试数据,和训练.xlsx类似,除了最后一列的Y值被抹去。

4)测试A-答案模板.csv (此文件不包含列名)

供选手填写测试A的预测答案Y, Y应该填写在第二列,用逗号分隔。

5)测试B-答案模板.csv (此文件不包含列名)

供选手填写测试B的预测答案Y, Y应该填写在第二列,用逗号分隔。

数据及代码下载:
链接: https://pan.baidu.com/s/1dbvIYlyt17h1_AGTJhO57Q&shfl=shareset

提取码: heut

代码实现

查看一下博客:
https://blog.csdn.net/m0_37468171/article/details/102629574

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
阿里云天池大赛工业蒸汽量预测是一个时间序列预测问题,可以使用R语言中的时间序列分析和建模工具进行解决。以下是一个简单的R语言代码示例,用于预测未来的蒸汽量。 首先,我们需要读入数据并对其进行预处理。这个数据集包含了两个变量:日期和蒸汽量。 ```r # 读入数据 data <- read.csv("data.csv") # 转换日期格式 data$DATE <- as.Date(data$DATE, format = "%Y/%m/%d") # 将日期设置为数据框的行名 rownames(data) <- data$DATE # 移除日期变量 data$DATE <- NULL ``` 接下来,我们可以绘制数据的时间序列图,以便更好地了解数据的性质。 ```r # 绘制时间序列图 plot(data$V1, type = "l", xlab = "日期", ylab = "蒸汽量") ``` 然后,我们可以使用时间序列分解方法,将时间序列分解为趋势、季节性和随机性三个部分,并对其进行可视化。 ```r # 时间序列分解 ts.decomp <- decompose(data$V1) # 可视化分解结果 plot(ts.decomp) ``` 分解结果表明,该时间序列具有明显的季节性和趋势,但是随机性较小。 接下来,我们可以使用ARIMA模型进行时间序列预测。ARIMA模型是一种常用的时间序列建模方法,可以用于预测未来的蒸汽量。 ```r # 拟合ARIMA模型 arima.model <- arima(data$V1, order = c(1, 1, 1), seasonal = list(order = c(0, 1, 1), period = 7)) # 预测未来7天的蒸汽量 forecast <- predict(arima.model, n.ahead = 7) # 输出预测结果 print(forecast$pred) ``` 以上代码中,我们使用ARIMA(1,1,1)模型,并将季节性设置为7,以便对一周内的季节性进行建模。最后,我们使用predict函数预测未来7天的蒸汽量,并输出预测结果。 这是一个简单的R语言示例,用于预测未来的蒸汽量。您可以根据实际情况进行修改和扩展,以获得更好的预测结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值