数据处理的基本流程

                      数据清洗  

  对于缺失值的处理,我们分为3类:删除数据,数据插补,不处理.数据的插值是取前后相邻几个数据的平均值作为插值,有拉格朗日插值法,牛顿插值法等.

 

               数据规范化

  数据规范化对于基于距离的挖掘算法很重要,将数据映射到0-1之间,或者-1-1之间.主要的方法有:最小-最大规范化,零-均值规范化,小数定标规范化

 

            连续属性离散化

  对于一些分类算法,如ID3算法和Apriori算法等,要求数据是分类形式.常用的方法有:等款法,等频法,基于聚类分析的方法(K-means).

 

             属性构造

  为了提取更有用的数据,提高挖掘的精度,需要再已有的数据集构造出新的属性特征,例如偷电漏电模型中构造出的线损率属性特征.

转载于:https://www.cnblogs.com/hanshuai0921/p/9294844.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值