1.数据清洗
1.1缺失值处理
1.1.1 缺失值处理方法:删除记录、数据插补、不处理;
1.1.2 常用的插补方法:
- 均值/中位数/众数插补:用该属性取值的平均数/中位数/众数进行插补;
- 使用固定值:将缺失值的属性用一个常量替换;
- 最近临插补:在记录中找到与缺失值最接近的样本的该属性值插补;
- 回归方法:对带有缺失值的变量,根据已有数据和其有关的其他变量(因变量)的数据建立拟合模型来预测缺失值的属性值;
- 插值法:利用已知点建立合适的插值函数f(x),未知值由对应点xi求出的f(xi)近似代替。
1.1.3 拉格朗日插值法
对于平面上已知的n个点可以找到一个n-1次多项式,使此多项式曲线过这n个点;
示例:
from scipy.interpolate import lagrange
if __name__ == '__main__':
x = [1, 2, 3, 4, 7]
y = [5, 7, 10, 3, 9]
a = lagrange(x, y)
print(type(a)) #a的类型
print('==================================================================================')
print(a) #打印a,a是一个关于x的4阶多项式
print('==================================================================================')
print(a.order) #a阶数
print('==================================================================================')
print(a(1)) #求x=1时,a的函数值
print(a[4], a[3],