项目实战——工业离散器件符合率的预测

本文介绍了在DataFuntain的离散制造器件质量预测项目中,通过对数据进行EDA、特征处理、模型选择和优化。特征工程涉及数据的离散性、连续性分析和均衡性调整,如log变换和去偏处理。模型部分对比了SVM、神经网络、GBDT、LightGBM和CatBoost,GBDT表现出色,最终准确率超过80%。项目强调特征工程的重要性及根据数据集选择合适模型的策略。
摘要由CSDN通过智能技术生成

数据背景介绍

数据来源于DataFuntain中的离散制造过程中典形工件的质量符合率预测, 以某典型工件生产过程为例,我们将提供给参赛者一系列工艺参数,以及在相应工艺参数下所生产工件的质量数据。

数据下载地址:[数据下载地址](链接:https://pan.baidu.com/s/1D95UoZYvc97LN-IEg9MBUg
提取码:uogb)(如若失效了,请可以自行官网下载或者联系我!)

  • 训练数据:

    A:工艺参数(如设备加工参数)

    B:工件的质量数据

    C:工件所符合的质检指标

  • 测试数据:

    A:工艺参数(如设备加工参数)

特征工程

数据探索性分析(EDA)
数据读取和查看

在这里插入图片描述

直观可见,数据集大小是5行21列。

数据离散性和连续性分析
# 获取列名
col_name = train_data.drop(['Quality_label'],1).columns
Notdlts_count = []
for i in col_name:
    # 计算非重复值的个数
    Notdlts = len(train_data[i].drop_duplicates())/6000
    Notdlts_count.append(Notdlts)


plt.plot(col_name, Notdlts_count, c='r')
plt.title('非重复值的总数计算')                 # 标题
plt.xlabel('列名')                        # x轴 的轴名
plt.ylabel('非重复数据在全数据上的占比')  # y轴 的轴名
plt.xticks(rotation=45)                   # 旋转 x轴的刻度名
plt.show()

在这里插入图片描述

数据是离散型还是连续性特征对后续特征的选取以及模型的选择都起着很重要的作用
由图可知,Parameter 5 - 10 基本为离散特征,而 Attribute4 - 10,有可能是 离散特征, 其余均为连续特征。

除此之外,还需要查看数据集的离散程度——标准差

# 获取列名
col_name = unit.columns

# 计算 标准差(std)
col_std = unit.describe().T['std']
    
plt.plot(col_name, col_std, c='red')  # 作图
plt.title('列 - 标准差')     # 标题
plt.xlabel('列名')           # x轴 的轴名
plt.ylabel<
评论 18
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值