项目实战——工业离散器件符合率的预测

最新推荐文章于 2022-11-09 17:25:04 发布

置顶

芷若初荨

最新推荐文章于 2022-11-09 17:25:04 发布

阅读量1.3k

点赞数 4

分类专栏：机器学习深度学习文章标签：机器学习算法 python 集成学习工业场景

本文链接：https://blog.csdn.net/Cecilia620/article/details/104742908

版权

本文介绍了在DataFuntain的离散制造器件质量预测项目中，通过对数据进行EDA、特征处理、模型选择和优化。特征工程涉及数据的离散性、连续性分析和均衡性调整，如log变换和去偏处理。模型部分对比了SVM、神经网络、GBDT、LightGBM和CatBoost，GBDT表现出色，最终准确率超过80%。项目强调特征工程的重要性及根据数据集选择合适模型的策略。

摘要由CSDN通过智能技术生成

数据背景介绍

数据来源于DataFuntain中的离散制造过程中典形工件的质量符合率预测, 以某典型工件生产过程为例，我们将提供给参赛者一系列工艺参数，以及在相应工艺参数下所生产工件的质量数据。

数据下载地址：[数据下载地址](链接：https://pan.baidu.com/s/1D95UoZYvc97LN-IEg9MBUg
提取码：uogb)（如若失效了，请可以自行官网下载或者联系我！）

训练数据：

A：工艺参数（如设备加工参数）

B：工件的质量数据

C：工件所符合的质检指标
测试数据：

A：工艺参数（如设备加工参数）

特征工程

数据探索性分析（EDA）

数据读取和查看

在这里插入图片描述

直观可见，数据集大小是5行21列。

数据离散性和连续性分析

# 获取列名
col_name = train_data.drop(['Quality_label'],1).columns
Notdlts_count = []
for i in col_name:
    # 计算非重复值的个数
    Notdlts = len(train_data[i].drop_duplicates())/6000
    Notdlts_count.append(Notdlts)


plt.plot(col_name, Notdlts_count, c='r')
plt.title('非重复值的总数计算')                 # 标题
plt.xlabel('列名')                        # x轴 的轴名
plt.ylabel('非重复数据在全数据上的占比')  # y轴 的轴名
plt.xticks(rotation=45)                   # 旋转 x轴的刻度名
plt.show()

在这里插入图片描述

数据是离散型还是连续性特征对后续特征的选取以及模型的选择都起着很重要的作用。
由图可知，Parameter 5 - 10 基本为离散特征，而 Attribute4 - 10，有可能是离散特征，其余均为连续特征。

除此之外，还需要查看数据集的离散程度——标准差

# 获取列名
col_name = unit.columns

# 计算 标准差(std)
col_std = unit.describe().T['std']
    
plt.plot(col_name, col_std, c='red')  # 作图
plt.title('列 - 标准差')     # 标题
plt.xlabel('列名')           # x轴 的轴名
plt.ylabel<