【数据分析与挖掘实战】数据预处理篇

最新推荐文章于 2022-03-03 09:32:02 发布

Asher117

最新推荐文章于 2022-03-03 09:32:02 发布

阅读量932

点赞数 4

分类专栏：数据分析与挖掘文章标签：数据预处理数据变换数据规约数据清洗异常值处理

本文链接：https://blog.csdn.net/Asher117/article/details/102749921

版权

本文深入探讨数据预处理的关键步骤，包括数据清洗的缺失值和异常值处理，数据集成的实体识别与冗余属性识别，数据变换的多种方法如函数变换和规范化，以及数据规约的属性和数值规约。详细介绍了拉格朗日插值法、牛顿插值法、主成分分析等技术，并强调了数据预处理在数据建模中的重要性。

摘要由CSDN通过智能技术生成

在这里插入图片描述

数据预处理

1.数据清洗

数据预处理一方面是要提高数据质量，另一方面可以让数据更好的适应特定的挖掘技术。统计发现，数据建模过程中，数据预处理工作占了整个工作的60%。数据预处理的过程包括数据清洗，数据集成，数据变换和数据规约。码字不易，喜欢请点赞！！！
在这里插入图片描述
数据清洗的过程主要包括缺失值处理和异常值处理。

1.1缺失值处理

前面【数据探索篇】说过缺失值处理主要包括的方法有三种：删除记录、数据插补、不处理。这里主要分享常见的数据插补方法：

均值/中位数/众数插补
固定值插补
最近临插补：在记录中找到与缺失样本最接近的样本的属性值填补
回归方法：通过回归方程插补
插值法：拉格朗日插值法、牛顿插值法、分段插值法等

拉格朗日插值法
通过构造拉格朗日多项日，进行插值填补。如下代码展示了如何使用拉格朗日插值法对缺失值进行填补：

import pandas as pd
from scipy.interpolate import lagrange #拉格朗日插值函数
catering_sale = r"...\data\catering_sale.xls"
data = pd.read_excel(catering_sale)

#首先将异常值设置为空
#销量需要放在前面,否则值未更新
data['销量'][(data['销量']<400) | (data['销量']>5000)]=None

#s为列向量，n为插值位置，k为取前后数据个数，默认为5
#lagrange函数使用：f = lagrange(list_x,list_y),进行插值操作：a = f(i)
def ployinterp_columns(s,n,k=5):
    y = s[list(range(n

最低0.47元/天解锁文章

Asher117

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【数据分析与挖掘实战】数据预处理篇

数据预处理1.数据清洗1.1缺失值处理1.2异常值处理2.数据集成2.1实体识别2.2冗余属性识别3.数据变换3.1简单函数变换3.2规范化3.3连续属性离散化3.4属性构造3.5小波变换4.数据规约4.1属性规约4.2数值规约1.数据清洗数据预处理一方面是要提高数据质量，另一方面可以让数据更好的适应特定的挖掘技术。统计发现，数据建模过程中，数据预处理工作占了整个工作的60%。数据预处理的过...
复制链接

扫一扫

专栏目录