逻辑错误清洗

最新推荐文章于 2024-01-19 16:13:37 发布

qq_39974560

最新推荐文章于 2024-01-19 16:13:37 发布

阅读量2.4k

点赞数

分类专栏：机器学习文章标签：数据挖掘大数据数据分析

本文链接：https://blog.csdn.net/qq_39974560/article/details/107927567

版权

9 篇文章 0 订阅

订阅专栏

逻辑错误除了以下列举的情况，还有很多未列举的情况，在实际操作中要酌情处理。另外，这一步骤在之后的数据分析建模过程中有可能重复，因为即使问题很简单，也并非所有问题都能够一次找出，我们能做的是使用工具和方法，尽量减少问题出现的可能性，使分析过程更为高效。

此时直接删除并只保留其中一条数据。

df.drop_duplicates()

如页面埋点时，进入页面和退出页面都会上报一次数据，只有时间不一样，其他字段相同，在统计pv/uv时应该进行去重。

根据某个/多个特征值唯一区分每个样本，则可使用该特征/多个特征进行去重。
df.drop_duplicates(subset=['ID'], keep='last')

根据业务常识，或者使用但不限于箱型图（Box-plot）发现数据中不合理的特征值。

不合理值的例子：

有些字段是可以互相验证的，举例：身份证号是1101031980XXXXXXXX，然后年龄填18岁。在这种时候，需要根据字段的数据来源，来判定哪个字段提供的信息更为可靠，去除或重构不可靠的字段。

关注

专栏目录