首先,数据出现质量问题有哪些原因或者情况?
其次,针对这些原因,制定清洗策略。
一般的数据质量出现问题的有:无效,重复,缺失,不一致,错误值,格式出错,业务逻辑规则有问题,抽取数据程序有错等,另外还有就是统计口径不一致,也会导致看到的数据不是想要的。
根据这些情况,如何清洗?人工,还是编写程序?这个依据数据量大小及挖掘系统要求看吧。如果出现这类型的错误很多,一定要写程序自动清洗,如果只是小量的不影响的,可以忽略不计。
-
问题扩展
首先,数据出现质量问题有哪些原因或者情况?
其次,针对这些原因,制定清洗策略。
一般的数据质量出现问题的有:无效,重复,缺失,不一致,错误值,格式出错,业务逻辑规则有问题,抽取数据程序有错等,另外还有就是统计口径不一致,也会导致看到的数据不是想要的。
根据这些情况,如何清洗?人工,还是编写程序?这个依据数据量大小及挖掘系统要求看吧。如果出现这类型的错误很多,一定要写程序自动清洗,如果只是小量的不影响的,可以忽略不计。