写在前面(201908):
数据质量问题往往会影响到工作效果,我们学习现代工具后,很容易就建立起一个初步的模型。但是真正的工作是如何优化它,而关键节点就包括数据的清洗和模型的调优。就好比想要做一道好菜,就需要好的原材料和好的制作手法。而不同的数据处理方法,也跟模型的需要息息相关。因此理解模型对数据的要求也是对做好一道菜的必要知识点。
这里先参考相关材料,记录下常规的数据清洗方法,并持续更新。
内容:
1、数据探索和准备步骤
2、缺失值处理
1、数据探索和准备步骤
1)变量确认
首先,确认因变量(目标变量)和自变量。
然后确认数据的类型,是字符型还是数字型。
最后确定数据的类别,是分类数据还是连续数据。
2)单变量分析
针对每个变量进行分析,分析变量的数字特征。
连续变量:了解变量的集中趋势(均值、众数、中位数、最大值、最小值)、分布情况(范围、四分位距IQR、方差、标准差、峰度、偏度)、可视化(直方图、箱型图)。
分类变量:各类别的频次、频率、条形图
3)双变量分析
寻找变量之间的关系。连续变量和分类变量共有三种组合情况,均有对应的方法进行分析。
(1)两个连续变量:使用散点图初步查看变量关系,利用相关系数计算相关性。
相关系数:Correlation = Covariance(X,Y) / SQRT( Var(X)* Var(Y))
(2)两个分类变量:
使用联合分布图,显