《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3.1 重复、空行、空列数据删除...

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3.1 重复、空行、空列数据删除

以案例文件3.1为例,如何对数据进行重复值的排查呢?可综合运用三种方法进行删除,其中,EXCEL提供了两种方法,不过都是直接删除,而SPSS中的重复值处理可以先标识然后再删除,相对更合理一点。下面分别讲讲这三种方法。
(1)EXCEL中的“删除重复项”
首先,选择“数据”中的“删除重复项”,如图3-2所示。


image


然后选择判断是否重复的项,如图3-3所示。

image


请注意,图3-3中的“编号”、“成绩”之前的勾选就是重复值的判断条件,意思就是如果编号和成绩都相同,那么就是重复值。我们可以用是否勾选来灵活决定判断重复值的条件。
点击“确定”后会弹出图3-4所示的对话框。


image


删除重复项的操作简单易行,但是有一个重大缺陷,就是它会直接将重复值删除,这有点“简单粗暴”,更理想的方法是先标注一下,待操作人员查看确认之后,再删除比较好。因此在做这个操作之前最好先进行数据备份。
(2)高级筛选
很多人都知道高级筛选是用来做多条件的复杂筛选的,但是知道用高级筛选来删除数据的人却不多,下面会介绍这个方法。首先进入高级筛选界面,如图3-5所示。


image


在高级筛选界面中,选择源数据区域和将要复制的数据块位置,如图3-6所示。
特别要注意的是,图3-6左下角的“选择不重复的记录”一定要勾选,然后点击确定,操作即完成。
相对于删除重复项,高级筛选连个输出提示都没有,这让初次使用的人往往感到有点没头没脑,起码应该有一个操作告诉我处理了多少数据、删除了多少数据吧。因此,高级筛选这个操作也需要谨慎,要事先做好数据备份。
(3)SPSS中的处理重复值
在SPSS中有专门处理重复值的模块,请见图3-7。

image

进入“标识重复个案”模块后,会弹出如图3-8所示的界面。


image


如同EXCEL中的“删除重复项”,SPSS中也需要选择若干字段作为判断是否重复的依据,图3-8中选择了手机号码和ARPU,代表手机号码和ARPU都相同才表示数据重复。“基本个案指示符”中的1表示唯一值,0表示重复值。勾选左下角的“将匹配个案移至文件顶端”表示会将有重复的数据移到文件最上端。
最后的输出结果如图3-9所示。这样的输出结果是比较合理的,可以先观察再删除,比直接删除要安全。


image


(4)删除空行
以案例文件3.3为例,为了删除空行,先用EXCEL进行排序,如图3-10所示。


image


排序结束后,删除空行即可,如图3-11所示。
以上删除空行的方法打乱了数据的顺序,若想不打乱数据的顺序,可采用辅助列的方法,如图3-12所示。


image

也就是先按照编号进行排序,删除空行后,再按照“次序”进行排序,最后删除“次序”辅助列。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值