数据的质量分析
数据准确性的识别和处理
原因 | 1)对数据的理解有误,字段含义与理解含义不同 2)指标的统计逻辑差异 3)数据不完整、有缺失或遗漏 |
影响 | 数据失真,在分析、建模的过程中会让模型出现错误结果,导致输出值不可靠 识别方法 |
识别方法 | 1)分析结果与已知的准确数据进行对比 2)相关人员进行核实(业务数据) |
解决方案 | 不断修正逻辑直到获取准确数据 |
数据重复值的识别和处理
原因 | 1)数据录入时重复录入 2)数据处理时产生了多条数据 |
影响 | 数据失真,在分析、建模的过程中会让模型出现错误结果,导致输出值不可靠 识别方法 |
识别方法 | 确定记录的数据主键,统计主键的出现次数 |
解决方案 | 1)如两条记录仅某个字段相同,则确定哪一条数据是准确的,删除无效数据 2)如两条完全相同,则删除其中一条 |
案例应用