预测算法模型系列(二)

数据清洗

1、补全处理:

有些原始表里的数据不是必填项,所以会有空值的情况,对于空值的补充处理要根据该字段的作用来分析处理,如果是空值有代表意义那就保留空值,如果空值没有代表意义,只是数据不完整,那可以根据情况用如下几种方式补充:均值补充、随机数补充、固定值补充、规律值补充等。

2、去杂处理:

有些数据不在常规范围内,这些可能是异常值,但是不能轻易的去掉或更改,要结合这个字段的数据意义来分析,比如血压数据高压值,有的是200多,这明显超过了正常人的高压范围,但是不能处理掉这个毛刺数据,它可能就是模型计算需要的异常数据。

或者有些机器的电流电压数据,可能因为供电电路或者发电装置的问题,产生突然的波动,但是这样的异常电压电流数据,却并不会对后续产量数据有影像,那么在做产量分析时,就可以把这样的毛刺数据去除掉。

所以说补全也好,去杂也好,或者其他的处理也好,都不能简单处理,一定要结合业务场景,分析之后再做处理。

3、归一化处理:

归一化处理不同于去空、补全、去杂等操作,它是根据算法实际需要,对数据做一次转性、转型的操作。比如血压数据,在做模型计算的时候,明确不需要具体的血压值,只要能区分是高血压还是低血压或正常值就可以,那么在数据清洗的时候就可以根据血压正常范围值,将数据分为0、1、2三个数,分别表示正常、低血压、高血压,这样减少了模型计算时的额外处理工作,提高模型运算效率。

有时候也不是非要将数据明确分成1、2、3、4等等,可能是原始数据值太大而且太分散,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值