《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3 耗时耗力的数据整理过程...

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.3节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3 耗时耗力的数据整理过程

数据的整理往往是一个痛苦的耗时耗力的过程,有人曾经以做饭菜来打比方:做过饭菜的人都知道,下油锅炒菜的时间其实并不长,几分钟就够了,而做菜之前的买菜、泡菜(用水浸泡菜去除农药)、洗菜、切菜、配菜等会消耗2~3小时。这和做数据分析很类似,做一个聚类分析,如果选择的模型得当并且电脑运行很快的话,几分钟甚至几秒钟就做完了,但是要把聚类的数据全部收集完毕,很可能要花几天甚至几个月的时间。
数据分析之前的数据整理工作要做哪些事情呢?我们看看以下逻辑。
(1)尽可能保证数据是对的
在错误的数据上分析得出的结论往往是错误的,因此要尽量保证数据的准确性,重复数据以及空行、空列、异常值、不符合逻辑关系的数据都会造成数据质量的降低,要想办法剔除这些数据。至少也要对这些数据有所警醒!
(2)尽可能保证数据能用得上
通常情况下,数据中都会有很多缺失值,面对这种情况,删除肯定是个简单的处理方法,但问题是,这样操作会丢失很多数据和信息。我曾经对某个项目进行测算,如果用“简单粗暴”的方法去删除包含缺失值的数据,那么大概要损失70%左右的数据,这样一来,根据30%左右的数据分析得出来的结论肯定是不准确的。
(3)要保证数据的格式能够直接用于分析
数据有多种组织方式,统计和挖掘中的很多算法模型都需要针对固定格式来做,比如对应分析、关联分析等,因此免不了要做格式转换,有时,为了实现对大数据量的分析,还需要进行编程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值