数据背景介绍
数据来源于DataFuntain中的离散制造过程中典形工件的质量符合率预测, 以某典型工件生产过程为例,我们将提供给参赛者一系列工艺参数,以及在相应工艺参数下所生产工件的质量数据。
数据下载地址:[数据下载地址](链接:https://pan.baidu.com/s/1D95UoZYvc97LN-IEg9MBUg
提取码:uogb)(如若失效了,请可以自行官网下载或者联系我!)
-
训练数据:
A:工艺参数(如设备加工参数)
B:工件的质量数据
C:工件所符合的质检指标
-
测试数据:
A:工艺参数(如设备加工参数)
特征工程
数据探索性分析(EDA)
数据读取和查看
直观可见,数据集大小是5行21列。
数据离散性和连续性分析
# 获取列名
col_name = train_data.drop(['Quality_label'],1).columns
Notdlts_count = []
for i in col_name:
# 计算非重复值的个数
Notdlts = len(train_data[i].drop_duplicates())/6000
Notdlts_count.append(Notdlts)
plt.plot(col_name, Notdlts_count, c='r')
plt.title('非重复值的总数计算') # 标题
plt.xlabel('列名') # x轴 的轴名
plt.ylabel('非重复数据在全数据上的占比') # y轴 的轴名
plt.xticks(rotation=45) # 旋转 x轴的刻度名
plt.show()
数据是离散型还是连续性特征对后续特征的选取以及模型的选择都起着很重要的作用。
由图可知,Parameter 5 - 10
基本为离散特征,而Attribute4 - 10
,有可能是 离散特征, 其余均为连续特征。
除此之外,还需要查看数据集的离散程度——标准差
# 获取列名
col_name = unit.columns
# 计算 标准差(std)
col_std = unit.describe().T['std']
plt.plot(col_name, col_std, c='red') # 作图
plt.title('列 - 标准差') # 标题
plt.xlabel('列名') # x轴 的轴名
plt.ylabel<