数据预处理

本文详细介绍了数据预处理的各个环节,包括数据清洗的缺失值和异常值处理,如插补方法(均值、中位数、众数、回归、插值等);数据集成中的实体识别和属性冗余问题;数据变换涉及的函数变换、规范化、离散化、小波变换等;以及数据规约的属性规约和主成分分析等,旨在提高数据挖掘的效率和准确性。
摘要由CSDN通过智能技术生成

1.数据清洗

1.1缺失值处理

1.1.1 缺失值处理方法:删除记录、数据插补、不处理;

1.1.2 常用的插补方法:

  • 均值/中位数/众数插补:用该属性取值的平均数/中位数/众数进行插补;
  • 使用固定值:将缺失值的属性用一个常量替换;
  • 最近临插补:在记录中找到与缺失值最接近的样本的该属性值插补;
  • 回归方法:对带有缺失值的变量,根据已有数据和其有关的其他变量(因变量)的数据建立拟合模型来预测缺失值的属性值;
  • 插值法:利用已知点建立合适的插值函数f(x),未知值由对应点xi求出的f(xi)近似代替。

1.1.3 拉格朗日插值法

对于平面上已知的n个点可以找到一个n-1次多项式y = a_{0} + a_{1} x+ a_{2}x^{2}+......+a_{n-1}x^{n-1},使此多项式曲线过这n个点;

示例:

from scipy.interpolate import lagrange

if __name__ == '__main__':
    x = [1, 2, 3, 4, 7]
    y = [5, 7, 10, 3, 9]
    a = lagrange(x, y)
    print(type(a)) #a的类型
    print('==================================================================================')
    print(a) #打印a,a是一个关于x的4阶多项式
    print('==================================================================================')
    print(a.order) #a阶数
    print('==================================================================================')
    print(a(1)) #求x=1时,a的函数值
    print(a[4], a[3], 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值