检测与处理重复值
数据重复是数据分析经常面对的问题之一。对重复数据进行处理前,需要分析重复数据产生的原因以及去除这部分数据后可能造成的不良影响。常见的数据重复分为两种:一种为记录重复,即一个或多个特征的某几条记录的值完全相同;另一种为特征重复,即存在一个或多个特征名称不同,但数据完全相同的情况。
1.记录重复
在用户下载意愿表的是否愿意下载特征存放了用户对App的下载意愿。 数据链接下载地址:https://dkjf9djfkjfdldlf。要查看用户下载意愿的类别数量,较简单的方法就是利用去重操作实现。可以利用列表(list)去重(方法一),代码如下:
除了使用代码4-7中的方法去重之外,还可以利用集合(set)元素唯一的特性去重,如代码4-8所示。
比较上述两种方法可以发现,代码4-7中的方法显得代码冗长,会影响数据分析的整体进度。代码4-8使用了集合元素唯一特性,代码简洁了许多