通常遇到缺失值的情况的处理方式:
1.缺失值的比例极高,舍弃,如果将其作为特征加入,可能会带入noise,
影响到最后的结果
2.缺失值比例适中且该属性为非连续值特征属性,将NaN作为一个新类别,
加入到类别特征中
3.缺失值比例适中且该属性为连续值特征属性,可能会考虑给其一个step,
将其离散化,之后将NaN作为一个type加到属性类目中
4.缺失值个数不多,可以尝试根据已有值,拟合一下数据(拟合数据要结
合一定的业务场景)
通常遇到缺失值的情况的处理方式:
1.缺失值的比例极高,舍弃,如果将其作为特征加入,可能会带入noise,
影响到最后的结果
2.缺失值比例适中且该属性为非连续值特征属性,将NaN作为一个新类别,
加入到类别特征中
3.缺失值比例适中且该属性为连续值特征属性,可能会考虑给其一个step,
将其离散化,之后将NaN作为一个type加到属性类目中
4.缺失值个数不多,可以尝试根据已有值,拟合一下数据(拟合数据要结
合一定的业务场景)