半导体制造过程数据集

关注公众号:52phm,学PHM不迷路

1、数据集描述

标题:SECOM数据集
摘要:半导体制造过程中的数据


数据集特征:多变量

实例数:1567

领域:计算机

属性特征:真实

属性数量:591

捐赠日期:2008-11-19

相关任务:分类、因果发现

缺少值?对


资料来源:
作者:Michael McCann,Adrian Johnston


数据集信息:

复杂的现代半导体制造工艺通常不一致通过监测从传感器收集的信号/变量进行监测,和/或过程测量点。然而,并非所有这些信号都具有同等价值在特定的监控系统中。测量信号包含以下各项的组合有用信息、不相关信息以及噪声。这种情况经常发生有用的信息隐藏在后两者之中。工程师通常有比实际需要的信号数量多得多。如果我们考虑每种类型将信号作为特征,则可以应用特征选择来识别最多相关信号。然后,工艺工程师可以使用这些信号来确定关键在该过程中导致下游产量偏移的因素。这将能够提高流程吞吐量,减少学习时间,并减少单位生产成本。

为了增强当前的业务改进技术,功能的应用选择作为一种智能系统技术正在研究之中。在这种情况下呈现的数据集代表了这样的特征的选择,其中每个示例都表示一个具有相关测量值的单个生产实体特征和标签表示内部生产线的简单合格/不合格率测试,图2,以及相关的日期时间戳。其中.1对应于一个通行证1对应于失败,数据时间戳用于该特定测试指向使用特征选择技术,期望根据它们对产品总产量的影响,因果关系也可能是为了识别关键特征而考虑。可以根据特征相关性提交结果,以便使用错误率作为我们的评估指标。建议交叉验证应用于生成这些结果。下面显示了一些基本的基线结果使用简单核脊分类器和10倍的特征选择技术交叉验证。

基线结果:将预处理对象应用于数据集,只是为了对数据进行标准化,删除不变的特征,然后选择40个排名最高的特征的不同特征选择对象应用一个简单的分类器来获得一些初步结果。十折十字形使用了验证,并生成了平衡错误率(*BER)作为我们的初始值性能指标,以帮助调查此数据集。

SECOM数据集:1567个示例591个功能,104个失败
FSmethod(40个功能)误码率%True+%True-%
S2N(信号噪声比)34.5±2.6 57.8±5.3 73.1+2.1

T测试33.7±2.1 59.6±4.7 73.0±1.8

减压40.1±2.8 48.3±5.9 71.6±3.2

皮尔逊34.1±2.0 57.4±4.3 74.4±4.9

Ftest 33.5±2.2 59.1±4.8 73.8±1.8英尺

葛兰施密特35.6±2.4 51.2±11.8 77.5±2.3


属性信息:

关键事实:数据结构:数据由2个文件组成数据集文件SECOM

由1567个例子组成,每个例子有591个特征,1567 x 591矩阵和标签

包含每个示例的分类和日期时间戳的文件。与任何现实生活中的数据情况一样,该数据包含的空值在强度取决于个体特征。这需要考虑通过预处理或内部调查数据时的考虑因素所应用的技术。

数据在原始文本文件中表示,每一行代表一个单独的示例和由空格分隔的特征。空值由表示

根据MatLab的“NaN”值。

2、数据获取

数据收集于网络,获取方式
在这里插入图片描述

http://www.52phm.cn/datasets/other/Semiconductor-manufacturing-process.html

3、参考资料

智能制造数据集

关注公众号:52phm,学PHM不迷路

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
天池智能制造质量预测数据集 背景描述 半导体产业是一个信息化程度高的产业。高度的信息化给数据分析创造了可能性。基于数据的分析可以帮助半导体产业更好的利用生产信息,提高产品质量。 现有的解决方案是,生产机器生产完成后,对产品质量做非全面的抽测,进行产品质量检核。这往往会出现以下状况,一是不能即时的知道质量的好坏,当发现质量不佳的产品时,要修正通常都为时以晚,二是在没有办法全面抽测的状况下,存在很大漏检的风险。 在机器学习,人工智能快速发展的今天,我们希望着由机器生产参数去预测产品的质量,来达到生产结果即时性以及全面性。更进一步的,可基于预先知道的结果,去做对应的决策及应变,对客户负责,也对制造生产更加敏感。 痛点与挑战: 1)TFT-LCD(薄膜晶体管液晶显示器)的生产过程较为复杂,包含几百道以上的工序。每道工序都有可能会对产品的品质产生影响,故算法模型需要考虑的过程变量较多。 2)另外,这些变量的取值可能会存在异常(如测点仪表的波动导致、设备工况漂移等现象),模型需要足够稳定性和鲁棒性。 3)产线每天加工的玻璃基板数以万计,模型需要在满足较高的精准度前提下尽可能实时得到预测结果,这样才能给在实际生产中进行使用。 价值: 1)如果能够建立算法模型准确预测出特性值,便可以实现生产过程的实时监控和预警,提前发现当前工序的问题、避免问题流入到后道工序,减少生产资源浪费的同时也优化了产品良率。 2)基于预测模型得到的关键参数,工艺人员能够快速地针对那些电性表现不佳的产品进行问题溯源分析,重点分析和调整那些关键的影响因子,加快不良问题的处理、提高整体工艺水平。 3)该预测模型在部署后也可以用于减少特性检测相关的工序,能够节约检测资源并且对提升产线整体的产能有正面作用。 数据说明 每条数据包含8029列字段。 第一个字段为ID号码,最后一列为要预测的值Y。其余的数据为用于预测Y的变量X。这些变量一共由多道工序组成,字段的名字可以区分不同的工序,例如 210X1, 210X2。300X1,300X2。字段中的TOOL_ID或者Tool为每道工序使用的机台,如果是string类型,需要选手自行进行数字化转换。注意: 数据中存在缺失值。 测试集分为A/B两份,相比训练集,最后一列的value值是缺失的,研究人员可以根据训练数据做模型训练,并对测试集做预测。为了方便研究人员评测算法效果,我们提供了测试集A的答案。 问题描述 本数据集提供了生产线上的抽样数据,反应机台的温度,气体,液体流量,功率,制成时间等因子。 通过这些因子,需要研究人员设计出模型,准确的预测与之相对应的特性数值。这是一个典型的回归预测问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

txhy2018

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值