不妥之处,欢迎评论指出。
缺失值填充这回事我们第一能想到的就是使用0进行填充,但是如果是年龄的话直接使用0进行填充就有点不太靠谱了,那么怎么办呢?
情况一:全样本均值填充
如果整个样本群体的年龄方差不大,比如整个样本来源于初中生,年龄在13-15岁之间,那么直接使用全样本的均值填充即可。
情况二:分类样本均值填充
但是真实情况往往不会这么美好,哪怕是初中生也会有急着早读书的学生和可怜巴巴的留级生,再加上各个地区的入学年龄并不统一,那么年龄区间一下子就会被拉大到11-16,这时候全体均值就不是那么管用了。
为了消除地区的影响,我们可以分地区进行均值计算,然后使用与样本同地区的均值进行填充。在入学的场景中我们需要考虑的地区粒度是城市,那么如果是生活习惯类的场景,我们可以考虑省份,又或者是大区(华东、华南之类的)。
同理在其他的分析场景中,我们还可以考虑分性别、分职业等等…
还可以考虑使用多个因素叠加分类之后再计算均值进行填充。
条条大路通罗马,管用就行。