缺失值处理
(1)删除:缺失比例较小的情况,可以直接删除含有缺失值的记录。
(2)填充:常用方法包括使用如平均值、中位数、众数、常数填充均值比较多,使用模型预测(如线性回归、决策树、KNN等)填充
(3)保留:对于缺失值本身具有含义(如问卷调查中的“不愿透露”选项),或者缺失比例极高、难以有效填充的情况,可以选择保留缺失值,并在后续分析中予以特殊处理。
异常值处理
(1)删除:对错误很明显的,跟实际不太相符合的、且异常的数量不大的情况下直接删除
(2)修正:对于由于录入错误、单位转换错误等原因产生的异常值,可以通过修正回填正确的值。
(3)标记:对于无法确定是否为异常值,或者异常值具有潜在研究价值的情况,可以将其标记为异常,供后续分析时参考。标记不应改变原始数据,而是通过附加字段记录异常状态。
重复值处理
(1)删除:保留一条或多条(如按时间戳、优先级选取)代表记录,删除其余重复记录。
(2)合并:将重复记录的非重复属性合并到一个记录中,如使用列表、集合、JSON对象等结构存储。合并需处理好数据冲突,如采用先到优先、最后更新优先等规则。