缺失值填充:关于年龄特征

不妥之处,欢迎评论指出。

缺失值填充这回事我们第一能想到的就是使用0进行填充,但是如果是年龄的话直接使用0进行填充就有点不太靠谱了,那么怎么办呢?

情况一:全样本均值填充

如果整个样本群体的年龄方差不大,比如整个样本来源于初中生,年龄在13-15岁之间,那么直接使用全样本的均值填充即可。

情况二:分类样本均值填充

但是真实情况往往不会这么美好,哪怕是初中生也会有急着早读书的学生和可怜巴巴的留级生,再加上各个地区的入学年龄并不统一,那么年龄区间一下子就会被拉大到11-16,这时候全体均值就不是那么管用了。

为了消除地区的影响,我们可以分地区进行均值计算,然后使用与样本同地区的均值进行填充。在入学的场景中我们需要考虑的地区粒度是城市,那么如果是生活习惯类的场景,我们可以考虑省份,又或者是大区(华东、华南之类的)。

同理在其他的分析场景中,我们还可以考虑分性别、分职业等等…
还可以考虑使用多个因素叠加分类之后再计算均值进行填充。

条条大路通罗马,管用就行。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值