【数据清洗】总结

最新推荐文章于 2024-02-20 16:19:06 发布

VIP文章 Lamcky

最新推荐文章于 2024-02-20 16:19:06 发布

阅读量4.2k

点赞数

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lamcky/article/details/100047258

版权

写在前面（201908）：
数据质量问题往往会影响到工作效果，我们学习现代工具后，很容易就建立起一个初步的模型。但是真正的工作是如何优化它，而关键节点就包括数据的清洗和模型的调优。就好比想要做一道好菜，就需要好的原材料和好的制作手法。而不同的数据处理方法，也跟模型的需要息息相关。因此理解模型对数据的要求也是对做好一道菜的必要知识点。

这里先参考相关材料，记录下常规的数据清洗方法，并持续更新。

内容：
1、数据探索和准备步骤
2、缺失值处理

1、数据探索和准备步骤
1）变量确认
首先，确认因变量（目标变量）和自变量。
然后确认数据的类型，是字符型还是数字型。
最后确定数据的类别，是分类数据还是连续数据。

2）单变量分析
针对每个变量进行分析，分析变量的数字特征。
连续变量：了解变量的集中趋势（均值、众数、中位数、最大值、最小值）、分布情况（范围、四分位距IQR、方差、标准差、峰度、偏度）、可视化（直方图、箱型图）。
分类变量：各类别的频次、频率、条形图

3）双变量分析
寻找变量之间的关系。连续变量和分类变量共有三种组合情况，均有对应的方法进行分析。
（1）两个连续变量：使用散点图初步查看变量关系，利用相关系数计算相关性。
相关系数：Correlation = Covariance(X,Y) / SQRT( Var(X)* Var(Y))
（2）两个分类变量：
使用联合分布图，显

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【数据清洗】总结

写在前面（201908）：数据质量问题往往会影响到工作效果，我们学习现代工具后，很容易就建立起一个初步的模型。但是真正的工作是如何优化它，而关键节点就包括数据的清洗和模型的调优。就好比想要做一道好菜，就需要好的原材料和好的制作手法。而不同的数据处理方法，也跟模型的需要息息相关。因此理解模型对数据的要求也是对做好一道菜的必要知识点。这里先参考相关材料，记录下常规的数据清洗方法，并持续更新。内容...
复制链接

扫一扫

专栏目录

博客等级

码龄6年

4
原创

3
点赞

53
收藏

4
粉丝

关注

私信

热门文章

分类专栏

最新评论

sas基础语句总结
m0_50348705: %let today = %sysfunc(today(),yymmddn8.);将今天sysfunc之情为什么加百分号呀
sas基础语句总结
m0_50348705: 第一步mprint sastrace那些选项是干什么的可以相信说说吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。