使用 Python 进行数据预处理中用到的各个扩展库及对应函数拉格朗日插值法，主成分分析等

最新推荐文章于 2023-10-10 00:14:22 发布

Carolinedy

最新推荐文章于 2023-10-10 00:14:22 发布

阅读量1.6k

点赞数

分类专栏： Python 数据预处理数据分析扩展库文章标签： Python 数据预处理 lagrange PCA 主成分分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Carolinedy/article/details/80662245

版权

一、数据清洗

删除原始数据集中的无关数据、重复数据，平滑噪声数据，处理缺失值、异常值。

缺失值处理

删除缺失值、数据插补、不处理

Scipy：拉格朗日插值法

from scipy.interpolate import lagrange#导入拉格朗日插值函数

参考链接：https://docs.scipy.org/doc/scipy/reference/generated/scipy.interpolate.lagrange.html#scipy.interpolate.lagrange

异常值处理

直接删除、视为缺失值、平均值填补、不处理

二、数据集成

将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程

实体识别

统一不同源数据的矛盾之处：同名异义、异名异义、单位不统一

冗余属性识别

同一属性多次出现、同一属性命名不一致导致重复

使用相关分析检测：给定两个数值型的属性A和B，根据其属性值，用相关系数度量一个属性在多大程度上蕴含另一个属性

计算相关系数：

Pearson 相关系数：分析两个连续变量之间的关系，且连续变量的取值服从正态分布。

Spearman 秩相关系数：分析不服从正态分布的变量、分类或等级变量见的关联性。

引入 Pandas 用于读取数据

计算示例：

data.corr( )[u'A的销量']

代码示例： https://mp.csdn.net/postedit/102562564

结果：列出所有产品销量与A销量的相关系数

三、数据变换

对数据进行规范化处理，转换成适于挖掘的形式。

简单函数变换

平方、开方、取对数、差分运算，以将不具有正态分布的数据变换城具有正态分布的数据。

规范化

将数据进行标准化处理，按照比例进行缩放，使之落入一个特定的区域，消除指标之间的量纲和取值范围差异的影响。

引入 Pandas 用于读取数据，numpy 用于计算数据

最小—最大规范化：离差标准化，是对原始数据的线性变换，将数值映射到 [0,1] 之间。

（不适用于数值集中且某个数值很大的情况）

转化公式： x*=(x-min)/(max-min)

max：样本数据的最大值; min：样本数据的最小值; max-min为极差

计算示例：( data-data.min() ) / ( data.max() -

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
使用 Python 进行数据预处理中用到的各个扩展库及对应函数拉格朗日插值法，主成分分析等

一、数据清洗删除原始数据集中的无关数据、重复数据，平滑噪声数据，处理缺失值、异常值。缺失值处理删除缺失值、数据插补、不处理 Scipy：拉格朗日插值法 from scipy.interpolate import lagrange#导入拉格朗日插值函数 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。