数据清洗的一般流程(特征工程)

1.获取输出目标数据的describe()。这包括数据的count,mean,std,min,median。然后获取输出数据的skew,kurt

 

2.绘制主要影响因素的图像,例如房子价格的主要影响因素是面积,即绘制面积与价格的图像。通过观察图像,查看异常值,并对异常值进行处理。一般异常值即为离群点数据

 

 

3.将训练集数据与测试集数据进行联合起来进行特征处理。

 

4.绘相关系数矩阵热图,分析各个特征的相关性,并对一下关联度比较高的数据进行选择性删除其中部分,只保留其中一份。关联程度比较高,说明这些数据之间存在较大的关联性,通过其中一个数据就可以表现着全部数据的特征。

 

5.查看缺失值,并对缺失数据进行排序。                                                                                                                         

6.考虑缺失数据对总数据的影响,如缺失数据对总体数据来说是无关数据,则可以之间删除,如果是相关选项,则对相关数据进行填补。对数据值形数据来说,一般填补中位数,对类别形数据来说,一般填补众数。对缺失数据是否进行删除,根据具体情况而定,如果缺失数据只是少部分,可以考虑直接删除这部分数据。

7.转换一些具有明确特征的数值变量,并增加一些组合特征,通过原来的特征进行组合,构建和目标关系更大的特征。

8.LabeEncoder一些一些类型特征。from skearn.propocessing import LanbelEncoder。(第七和第八的有效组合可以使数据模型更加的健壮。)

9.对(偏度)倾斜特征,数据值型特征机械能Box-Cox变换,使数据型数据更趋向正态分布。数值特征计算偏度后,不符合正态分布的数据采用box-cox变换。对类别变量(虚拟分类)进行one-hot转换,pd.get_dummies()

10.最后,计算训练集长度,对进行完特征工程之后的数据进行划分,train,text。

  • 9
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值