数据预处理

一.数据缺失

对缺失数据进行补全(原文链接:https://www.cnblogs.com/jiaxin359/p/8594640.html)

1:人工填充:根据已经掌握的数据的知识进行填充,但是这个方法在数据量很大,缺失值很多的时候明显是不可以的。

2:特殊值填充:将缺失值用unknown表示,这和原来的缺失值的意思还是有一点差别的。在这里unknown可以当做一种取值的可能性。

3:平均值填充。 对于数字类型的变量,可以使用没有缺失值的一些信息进行估计,使用用平均值进行的估计称为平均值填充。对于分类变量可以使用众数来进行填充。其实也可以加上一点方差的信息来进行估计,我在后面的例子当中来说明这一点。

4:将数据映射到高维,第二个参考文章。这个方法有点暴力,使得特征的数量大大的增加,但是保留原始数据的全部信息。

5:使用其它的变量来进行预估。 这里的方法就多了,包括文章中讲的回归,期望最大化方法和C4.5方法。这里因为都没有接触过,就不写了。

python处理:https://blog.csdn.net/weixin_33909059/article/details/86935677

2.异常数据(噪声数据、离群点)

数据噪声指在一组数据中无法解释的数据变动,就是一些不和其他数据相一致的数据。通常表现为离群点。

文章:https://www.jianshu.com/p/389682aa5429

https://blog.csdn.net/weixin_42144636/article/details/81584372

https://blog.csdn.net/wangyangzhizhou/article/details/83854951

https://blog.csdn.net/lishangyin88/article/details/71189358

https://www.cnblogs.com/xiaohuahua108/p/6237906.html

3.评价指标类型的一致化处理

在已建立的指标体系中,指标集可能同时含有“极大型”和“极小型”指标,也存在“中间型”指标。因此在评价之前必须将评价指标的类型进行一致化处理,即要统一化为极大型指标。

关于具体的一致化处理过程见《数学建模方法及其应用》的213和214页。

此类处理一般在评价问题中,常用于主成分分析法和层次分析法的模型中。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值