【数据清洗】总结

写在前面(201908):
数据质量问题往往会影响到工作效果,我们学习现代工具后,很容易就建立起一个初步的模型。但是真正的工作是如何优化它,而关键节点就包括数据的清洗和模型的调优。就好比想要做一道好菜,就需要好的原材料和好的制作手法。而不同的数据处理方法,也跟模型的需要息息相关。因此理解模型对数据的要求也是对做好一道菜的必要知识点。

这里先参考相关材料,记录下常规的数据清洗方法,并持续更新。

内容:
1、数据探索和准备步骤
2、缺失值处理

1、数据探索和准备步骤
1)变量确认
首先,确认因变量(目标变量)和自变量。
然后确认数据的类型,是字符型还是数字型。
最后确定数据的类别,是分类数据还是连续数据。

2)单变量分析
针对每个变量进行分析,分析变量的数字特征。
连续变量:了解变量的集中趋势(均值、众数、中位数、最大值、最小值)、分布情况(范围、四分位距IQR、方差、标准差、峰度、偏度)、可视化(直方图、箱型图)。
分类变量:各类别的频次、频率、条形图

3)双变量分析
寻找变量之间的关系。连续变量和分类变量共有三种组合情况,均有对应的方法进行分析。
(1)两个连续变量:使用散点图初步查看变量关系,利用相关系数计算相关性。
相关系数:Correlation = Covariance(X,Y) / SQRT( Var(X)* Var(Y))
(2)两个分类变量:
使用联合分布图,显

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值