数据清洗步骤

数据清洗可以通过5步做好:

1.把所有非数值变量转为数值变量含有人类知识的变量根据先验知识转化(比如日期转化为天数、年、月、日等,地理转化为经纬度、城市等级等,定序变量保留序数),不含有先验知识的非数值变量通过one-hot encoding一律转成0-1哑变量,此时所有变量都是数值型的了。

2.把一系列相似变量可以用统计量概括或补充(比如不同时期第三方信息、几个城市等用均值方差之类的信息)。

3.删掉那些空值与同一值占比过多的稀疏变量。

4.删掉共线变量 。

5.把空值填充好(中位数或平均数等),然后标准化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值